El científico de datos especializado en modelos tipo transformers de texto e imagen será responsable de diseñar, desarrollar, entrenar y optimizar modelos, orientados a resolver problemas de relación e identificación de similitudes entre distintas entidades de texto e imagen, dentro de grandes volúmenes de datos. El rol demanda una comprensión avanzada de técnicas de machine learning y deep learning aplicadas a problemas de emparejamiento y búsqueda semántica, así como la capacidad de traducir requisitos de negocio en soluciones robustas y escalables.
responsabilidades:
* diseñar, desarrollar y entrenar modelos de búsqueda semántica para resolver problemas de emparejamiento entre texto e imágenes.
* realizar diagnóstico, limpieza y enriquecimiento de datasets para el correcto entrenamiento de modelos. Uso de ia generativa para ayudar en la creación de dichos datasets.
* definir las mejores métricas y validaciones para evaluar el rendimiento de los modelos según los objetivos del negocio.
* colaborar con equipos de ingeniería de ml para la integración y despliegue de los modelos desarrollados en los procesos productivos.
* documentar todo el proceso de desarrollo e investigación para asegurar la reproducibilidad y mantenibilidad de los modelos.
* identificar e investigar nuevas técnicas, algoritmos y herramientas para mejorar la precisión y eficiencia de los modelos.
requisitos:
* dominio en desarrollo y entrenamiento de modelos de deep learning (modelos transformers de texto e imágenes, en un contexto supervisado y seimi-supervisado).
* conocimiento de técnicas de genai y prompt engineering son deseables.
* amplia experiencia en el manejo de frameworks de machine learning y deep learning como scikit-learn, pytorch, xgboost, sentence transformers, hugging face, faiss.
* experiencia en el manejo de bases de datos vectoriales (milvus, qdrant, pinecone).
* conocimientos sólidos en procesamiento y limpieza de datos, uso de regex y data wrangling con pandas y polars. Conocimiento en técnicas avanzadas de feature engineering son deseables.
* experiencia práctica en evaluación de modelos supervisados.
* competencia en programación en python y sql (indispensable)
* experiencia trabajando con grandes volúmenes de datos y optimización de pipelines de modelado.
* inglés avanzado