Overview
id de la solicitud: 257231
programa de referido de empleados – probable pago: $0.00
estamos comprometidos en continuar invirtiendo en nuestros empleados y ayudarte a continuar desarrollando tu línea de carrera en scotiabank.
propósito: el ingeniero de site reliability (sre) tiene como propósito garantizar la disponibilidad, confiabilidad, escalabilidad y eficiencia operativa de los sistemas y servicios críticos de la organización, combinando prácticas de ingeniería de software con operaciones. El sre trabaja en estrecha colaboración con los equipos de desarrollo, operaciones y producto para implementar y fortalecer prácticas de observabilidad, gestión de incidentes, respuesta ante fallos, automatización y mejora continua, asegurando que los servicios cumplan con los acuerdos de nivel de servicio (sla/slo) establecidos y mantengan una experiencia de usuario óptima. Asimismo, se encarga de detectar fallas en tiempo real, liderar la respuesta técnica inicial, automatizar tareas repetitivas, reducir el mttr y proporcionar análisis basados en datos para prevenir incidentes futuros y mejorar continuamente la confiabilidad del entorno productivo.
responsabilidades
* disponibilidad y confiabilidad de servicios: diseñar, implementar y mantener sistemas resilientes que cumplan con slo/sla.
* asegurar la operación 7x24 y la continuidad del servicio respetando error budgets.
* observabilidad y análisis (end-to-end): implementar y mantener observabilidad (métricas, logs, trazas) y alertas accionables.
* administrar dashboards y reglas de alerta en la plataforma de monitoreo utilizada.
* definir, medir y monitorear sli/slo por servicio.
* analizar tendencias y degradaciones con datos (queries de métricas, logs y trazas).
* gestión de incidentes y postmortems: actuar como primer nivel técnico especializado: detección y diagnóstico inicial.
* coordinar la escalación y apoyar la resolución durante incidentes p1/p2.
* documentar y dar seguimiento a postmortems/rca y planes de acción.
* reducir mttr y prevenir reincidentes.
* confiabilidad, automatización y mejora continua: aplicar prácticas sre (toil reduction, automatización, release readiness, error budgets).
* automatizar tareas operativas (scripts, pipelines ci/cd, remedios).
* identificar y ejecutar optimización de arquitectura, rendimiento y costos.
* gestión de capacidad y escalabilidad: analizar tendencias de uso y crecimiento para anticipar necesidades de infraestructura.
* planificar y validar escalabilidad y performance de los servicios.
* colaboración transversal: colaborar con desarrollo, qa, seguridad, infraestructura y producto desde el diseño; asegurar que los nuevos servicios cumplan estándares de observabilidad, mantenibilidad y confiabilidad antes del go-live.
* seguridad y cumplimiento: asegurar cumplimiento de políticas de seguridad, privacidad y normativas aplicables; colaborar en controles, evidencias y auditorías conforme a marcos internos.
* documentación técnica y cultura sre: mantener documentación clara y actualizada (arquitectura, procesos, runbooks, sli/slo, rca); promover principios sre y buenas prácticas dentro de los equipos relacionados.
relaciones y estructura
* relaciones jerárquicas (solo nombres de puestos): gerente principal; sub director service reliability engineering (sre); incluir al gerente secundario si es pertinente.
* subordinados directos: n/a
* subordinados compartidos: gestión de sistemas de alto volumen transaccional en operación 7x24; salud y disponibilidad del ecosistema productivo; generación de reportes ejecutivos de disponibilidad y desempeño; colaboración con ti locales y globales; mejora del proceso on-call; cultura de riesgo y cumplimiento de controles operativos y regulatorios; contribuye a la reducción del riesgo operativo, regulatorio y otros.
educación / experiencia / otra información (específica para la función)
* título universitario en ingeniería en sistemas, computación, telecomunicaciones o afín.
* nivel de inglés intermedio‑alto (oral y escrito).
* 5+ años de experiencia en entornos productivos de alta disponibilidad y alto volumen transaccional (operación 7x24).
* 3+ años en soporte a producción o roles relacionados con confiabilidad, operación o monitoreo.
* 4+ años de experiencia en ingeniería de nube (aws, gcp, azure) o funciones equivalentes.
* experiencia en diseño, implementación y mantenimiento de sli/slo y prácticas sre.
* experiencia con microservicios, cargas de trabajo basadas en contenedores y funciones.
* experiencia en diseño de arquitecturas resilientes, escalables y seguras.
* participación en gestión de incidentes complejos, diagnósticos detallados y análisis de causa raíz.
* capacidad probada para identificar proactivamente problemas, cuellos de botella y oportunidades de mejora.
en scotiabank, valoramos las habilidades y experiencias únicas que cada persona aporta al banco y nos comprometemos a crear y mantener un entorno inclusivo y accesible para todos. Todos/as los/las empleados deben cumplir con las políticas, normas, códigos y directrices del banco relacionadas con la no discriminación y las adaptaciones en el lugar de trabajo. Si necesitas algún tipo de adaptación durante el proceso, indícalo a nuestro equipo de atracción de talento. Scotiabank es una empresa incluyente que respeta la diversidad y no hace discriminación. Bajo ninguna circunstancia solicita pruebas de embarazo ni de vih. Agradecemos tu interés; solo las personas seleccionadas para entrevista serán contactadas.
ubicación(s): méxico : ciudad de méxico : cuauhtémoc
scotiabank es un banco líder en las américas. Para nuestro futuro, ayudamos a nuestros clientes y comunidades a lograr el éxito a través de asesoría, productos y servicios en banca personal y comercial, gestión patrimonial, banca privada, corporativa y de inversión, y mercados de capital. Si necesitas adaptaciones durante el proceso de reclutamiento, indícalo a reclutamiento. Los candidatos deben postularse en línea; solo contactaremos a quienes sean seleccionados para una entrevista.
#j-18808-ljbffr