El científico de datos será responsable de diseñar, desarrollar, entrenar y optimizar modelos, orientados a resolver problemas de relación e identificación de similitudes entre distintas entidades de texto e imagen, dentro de grandes volúmenes de datos. El rol demanda una comprensión avanzada de técnicas de machine learning y deep learning aplicadas a problemas de emparejamiento y búsqueda semántica, así como la capacidad de traducir requisitos de negocio en soluciones robustas y escalables.
experiencia profesional:
* 5 años de experiencia en roles relacionados con ciencia de datos, análisis estadístico o investigación aplicada.
* experiencia liderando proyectos de ciencia de datos de principio a fin, desde la definición del problema hasta la implementación de soluciones.
* experiencia trabajando con grandes volúmenes de datos y en entornos de computación distribuida.
herramientas:
* python (avanzado).
* bibliotecas de ciencia de datos y ml: numpy, pandas, polars, scikit-learn, tensorflow, pytorch, statsmodels, xgboost, lightgbm, sentence transformers, hugging face, faiss.
* análisis estadístico y modelado: spss, sas, matlab.
* visualización de datos: matplotlib, seaborn, plotly, tableau, power bi.
* big data y procesamiento distribuido: spark, dask, hadoop.
* bases de datos: sql, nosql (mongodb, cassandra), postgresql, milvus, qdrant, pinecone.
* etl y orquestación: apache airflow, luigi.
* infraestructura y mlops: docker, kubernetes, mlflow, kubeflow.
* computación en la nube: aws, gcp, azure.
habilidades técnicas requeridas:
* dominio en desarrollo y entrenamiento de modelos de deep learning (modelos transformers de texto e imágenes, en un contexto supervisado y seimi-supervisado).
* conocimiento de técnicas de genai y prompt engineering son deseables.
* amplia experiencia en el manejo de frameworks de machine learning y deep learning.
* experiencia en el manejo de bases de datos vectoriales.
* conocimientos sólidos en procesamiento y limpieza de datos, uso de regex y data wrangling. Conocimiento en técnicas avanzadas de feature engineering son deseables.
* experiencia práctica en evaluación de modelos supervisados.
* experiencia trabajando con grandes volúmenes de datos y optimización de pipelines de modelado.
* deseable: experiencia implementando modelos en ambientes cloud