Overviewid de la solicitud: 257231programa de referido de empleados – probable pago: $0.00estamos comprometidos en continuar invirtiendo en nuestros empleados y ayudarte a continuar desarrollando tu línea de carrera en scotiabank.propósito: el ingeniero de site reliability (sre) tiene como propósito garantizar la disponibilidad, confiabilidad, escalabilidad y eficiencia operativa de los sistemas y servicios críticos de la organización, combinando prácticas de ingeniería de software con operaciones. El sre trabaja en estrecha colaboración con los equipos de desarrollo, operaciones y producto para implementar y fortalecer prácticas de observabilidad, gestión de incidentes, respuesta ante fallos, automatización y mejora continua, asegurando que los servicios cumplan con los acuerdos de nivel de servicio (sla/slo) establecidos y mantengan una experiencia de usuario óptima. Asimismo, se encarga de detectar fallas en tiempo real, liderar la respuesta técnica inicial, automatizar tareas repetitivas, reducir el mttr y proporcionar análisis basados en datos para prevenir incidentes futuros y mejorar continuamente la confiabilidad del entorno productivo.
Responsabilidades
disponibilidad y confiabilidad de servicios: diseñar, implementar y mantener sistemas resilientes que cumplan con slo/sla.
Asegurar la operación 7x24 y la continuidad del servicio respetando error budgets.
Observabilidad y análisis (end-to-end): implementar y mantener observabilidad (métricas, logs, trazas) y alertas accionables.
Administrar dashboards y reglas de alerta en la plataforma de monitoreo utilizada.
Definir, medir y monitorear sli/slo por servicio.
Analizar tendencias y degradaciones con datos (queries de métricas, logs y trazas).
Gestión de incidentes y postmortems: actuar como primer nivel técnico especializado: detección y diagnóstico inicial.
Coordinar la escalación y apoyar la resolución durante incidentes p1/p2.
Documentar y dar seguimiento a postmortems/rca y planes de acción.
Reducir mttr y prevenir reincidentes.
Confiabilidad, automatización y mejora continua: aplicar prácticas sre (toil reduction, automatización, release readiness, error budgets).
Automatizar tareas operativas (scripts, pipelines ci/cd, remedios).
Identificar y ejecutar optimización de arquitectura, rendimiento y costos.
Gestión de capacidad y escalabilidad: analizar tendencias de uso y crecimiento para anticipar necesidades de infraestructura.
Planificar y validar escalabilidad y performance de los servicios.
Colaboración transversal: colaborar con desarrollo, qa, seguridad, infraestructura y producto desde el diseño; asegurar que los nuevos servicios cumplan estándares de observabilidad, mantenibilidad y confiabilidad antes del go-live.
Seguridad y cumplimiento: asegurar cumplimiento de políticas de seguridad, privacidad y normativas aplicables; colaborar en controles, evidencias y auditorías conforme a marcos internos.
Documentación técnica y cultura sre: mantener documentación clara y actualizada (arquitectura, procesos, runbooks, sli/slo, rca); promover principios sre y buenas prácticas dentro de los equipos relacionados.
Relaciones y estructura
relaciones jerárquicas (solo nombres de puestos): gerente principal; sub director service reliability engineering (sre); incluir al gerente secundario si es pertinente.
Subordinados directos: n/a
subordinados compartidos: gestión de sistemas de alto volumen transaccional en operación 7x24; salud y disponibilidad del ecosistema productivo; generación de reportes ejecutivos de disponibilidad y desempeño; colaboración con ti locales y globales; mejora del proceso on-call; cultura de riesgo y cumplimiento de controles operativos y regulatorios; contribuye a la reducción del riesgo operativo, regulatorio y otros.
Educación / experiencia / otra información (específica para la función)
título universitario en ingeniería en sistemas, computación, telecomunicaciones o afín.
Nivel de inglés intermedio‑alto (oral y escrito).
5+ años de experiencia en entornos productivos de alta disponibilidad y alto volumen transaccional (operación 7x24).
3+ años en soporte a producción o roles relacionados con confiabilidad, operación o monitoreo.
4+ años de experiencia en ingeniería de nube (aws, gcp, azure) o funciones equivalentes.
Experiencia en diseño, implementación y mantenimiento de sli/slo y prácticas sre.
Experiencia con microservicios, cargas de trabajo basadas en contenedores y funciones.
Experiencia en diseño de arquitecturas resilientes, escalables y seguras.
Participación en gestión de incidentes complejos, diagnósticos detallados y análisis de causa raíz.
Capacidad probada para identificar proactivamente problemas, cuellos de botella y oportunidades de mejora.
En scotiabank, valoramos las habilidades y experiencias únicas que cada persona aporta al banco y nos comprometemos a crear y mantener un entorno inclusivo y accesible para todos. Todos/as los/las empleados deben cumplir con las políticas, normas, códigos y directrices del banco relacionadas con la no discriminación y las adaptaciones en el lugar de trabajo. Si necesitas algún tipo de adaptación durante el proceso, indícalo a nuestro equipo de atracción de talento. Scotiabank es una empresa incluyente que respeta la diversidad y no hace discriminación. Bajo ninguna circunstancia solicita pruebas de embarazo ni de vih. Agradecemos tu interés; solo las personas seleccionadas para entrevista serán contactadas.
Ubicación(s): méxico : ciudad de méxico : cuauhtémoc
scotiabank es un banco líder en las américas. Para nuestro futuro, ayudamos a nuestros clientes y comunidades a lograr el éxito a través de asesoría, productos y servicios en banca personal y comercial, gestión patrimonial, banca privada, corporativa y de inversión, y mercados de capital. Si necesitas adaptaciones durante el proceso de reclutamiento, indícalo a reclutamiento. Los candidatos deben postularse en línea; solo contactaremos a quienes sean seleccionados para una entrevista.
#j-18808-ljbffr