Objetivo del puesto:ingeniero de operaciones de ia/ml de aws enfocado en construir una plataforma de datos sólida y tuberías que permitan análisis avanzados. Desarrollará herramientas de plataforma, implementará modelos de ciencia de datos en producción ya sea en batch / real-time, ajuste de hiperparámetros a escala y monitoreará el rendimiento de producción. Apoyará proyectos de aprendizaje automático de principio a fin y desarrollará herramientas de plataforma para el equipo de ciencia de datos. Será responsable de los resultados de las operaciones de aprendizaje automático: velocidad de las implementaciones de modelos, validación del código implementado del modelo y control de versiones de datos, modelos e infraestructura.responsabilidades clave:implemente y mantenga la infraestructura (i.e. Sagemaker notebooks) para proporcionar una plataforma de desarrollo de modelos eficaz para ci/cd de los científicos de datos e ingenieros de ml que se integre con el ecosistema de datos empresariales.cree, implemente y mantenga pipelines de entrada/salida y generación de features para calcular features de entrada para el entrenamiento y la inferencia de análisis y modelos.implemente y mantenga la infraestructura para el servicio de modelos por lotes y en tiempo real, en aplicaciones de alto rendimiento y baja latencia, a escala.identifique, implemente y mantenga herramientas de control, monitoreo y alertas del rendimiento de los modelos para identificar potenciales dificultades.implemente y mantenga la infraestructura para tareas de proceso intensivo, como el ajuste de hiperparámetros, la interpretabilidad y la explicabilidad.se asocia con equipos de producto, arquitectura y otros equipos de ingeniería para definir soluciones técnicas escalables y de alto rendimiento.aprovecha la profunda experiencia técnica para diseñar soluciones extensibles y escalables, y para entrenar y hacer crecer a personas y equipos.garantiza que el equipo ejecute el trabajo de acuerdo con los estándares de cumplimiento, los sla y los requisitos comerciales para cumplir con los objetivos de una iniciativa. Se anticipa a las necesidades de equipos más amplios y a las posibles dependencias con otros equipos.identifica y mitiga los problemas para ejecutar tareas / trabajos mientras los escala según sea necesario.ayuda de manera proactiva a mantener altos estándares de excelencia operativa para nuestros sistemas de producción. Fomenta el desarrollo de métodos y técnicas tecnológicas dentro del equipo.conocimientos / y experiencias:+6 años de experiencia en diseño, construcción y mantenimiento de ml pipelines utilizando herramientas como aws step functions, apache airflow o kuberflow.+5 años de experiencia probada con plataformas en la nube (aws, gcp, azure), particularmente en servicios relacionados con aprendizaje de máquina, almacenamiento de datos y procesamiento (e.g., aws sagemaker. Google ai plataform, azure ml).+3 años de experiencia en tecnologías de contenerización y orquestración, incluyendo docker y kubernetes, con enfoque en escalamiento de cargas de trabajo de aprendizaje de máquina.+3 años de experiencia en implementación y mantenimiento de modelos de aprendizaje de máquina en ambientes productivos utilizando herramientas como tensorflow serving, torchserver o apis.+3 años de experiencia en la configuración y gestión de tuberías en ci/cd para modelos de aprendizaje de máquina con herramientas como jenkins, gitlab ci/cd o circleci.+3 años de experiencia en versionamiento de datos y herramientas de administración como dvc (data version control) o mlflow para asegurar trazabilidad y reproductibilidad de las bases de datos y modelos.