*vacante para la empresa necodex en hermosillo, sonora*:
buscamos un(a) mlops engineer con enfoque en sre (site reliability engineering) que puedagarantizar la confiabilidad, trazabilidad y disponibilidad de modelos de machine learning enproducción.
este perfil combina habilidades de automatización, observabilidad, monitoreo demodelos y gestión de incidentes para soluciones críticas basadas en ia.
ideal para entornos dondelos modelos deben operar con alta disponibilidad, bajo latencia y monitoreo activo de métricasde negocio y ml.
*responsabilidades principales*
- diseñar y operar soluciones de observabilidad para modelos de ml en producción(monitoring, alertas, trazabilidad).
- desarrollar dashboards y métricas que permitan evaluar rendimiento, costo yestabilidad de los modelos.
- implementar herramientas de logging estructurado, monitoreo de drift, calidad dedatos y errores de inferencia.
- automatizar el escalado, recuperación ante fallos y auto-healing de servicios deinferencia.
- establecer slas/slis/slos para pipelines de ml y servicios inteligentes.
- colaborar con equipos de ciencia de datos y producto para detectar y mitigar incidentesrelacionados con modelos en producción.
- establecer políticas de rollback y blue/green deployments para versiones de modelos.
- aplicar prácticas de sre como chaos engineering, tests de estrés, pruebas en staging eintegración continua.
*requisitos del perfil*
- 4+ años de experiência como sre, devops o ingeniero de plataforma con proyectos deml.
- conocimiento de frameworks de model monitoring como evidently, arize ai, whylabso similares.
- dominio de prometheus, grafana, elk/efk, opentelemetry o datadog.
- experiência con orquestadores como airflow, kubeflow o herramientas de experimenttracking (mlflow, weights & biases).
- dominio de kubernetes, docker, helm y herramientas de automatización deinfraestructura (terraform, pulumi).
- sólidos fundamentos en ci/cd para pipelines de ml (testing, validación, rollback).
*plus / deseables (nice to have)*
- experiência operando modelos en alibaba cloud y configurando observabilidad endicho entorno.
- familiaridad con estrategias de canary deployment, shadow testing y experimentacióncontrolada.
- conocimiento de frameworks de ia explicable y auditoría de modelos.
- experiência en entornos de alta transaccionalidad como banca, contabilidad, nómina ologística.
*ofrecemos*:
- salario competitivo.
- seguro médico mayor desde el primer día.
- * 15 días de pto (días de descanso)*desde el primer día.
- oportunidades de crecimiento y desarrollo en un equipo en expansión.
- programas de mentoría, aprendizaje y educación continua.
- eventos mensuales para empleados.
*nível de educación deseada*:
superior - titulado
*nível de experiência deseada*:
nível experto
*función departamental*:
tecnología / internet
*industria*:
desarrollo de software / programación
*habilidades*:
- sre
- arize ai
- grafana
- kubernetes
- docker