El objetivo del puesto es diseñar, desarrollar y mantener procesos de integración, preparación y transformación de datos para soluciones de business intelligence y analítica avanzada, asegurando consistencia, trazabilidad y rendimiento en entornos big data y cloud. El ingeniero de datos es responsable de construir las rutas de datos de extremo a extremo (etl/elt), implementar procesos automatizados y optimizar la movilidad de la información entre fuentes y destinos analíticos. Su misión es crear infraestructuras de datos escalables usando spark, hadoop, hive, databricks y plataformas en la nube (azure/gcp), garantizando que la información esté lista para su uso en modelos predictivos, bi y machine learning.
Requisitos
formación académica: ingeniería en sistemas, computación, ciencia de datos, informática o afines
experiencia profesional: mínimo 6 años en implementación de procesos etl y 2 años en entornos big data
idiomas: inglés técnico (intermedio)
actividades
diseñar y mantener procesos etl y elt para integrar, limpiar y transformar datos en entornos big data.
Desarrollar transformaciones de datos en spark (sql, scala o python) para procesamiento batch y streaming.
Realizar modelado de datos columnar orientado a consumo, optimización y desempeño.
Elegir y optimizar tecnologías big data (hadoop, hive, databricks) según el volumen y tipo de fuente.
Diseñar modelos dimensionales (esquema estrella y copo de nieve) para almacenes de datos y analítica bi.
Comprender los requerimientos y flujos de negocio para proponer soluciones de integración de datos.
Implementar flujos de trabajo de orquestación y automatización (airflow, oozie, etc.).
Desarrollar procesos para la extracción desde sistemas oltp y la carga en repositorios olap/dwh.
Asegurar el rendimiento y la escalabilidad, optimizando consultas sql y operaciones en discos distribuidos.
Integrar servicios mediante apis rest y otros mecanismos.
Garantizar la calidad, seguridad y consistencia de los datos en todas las etapas.
Colaborar con científicos de datos, analistas bi y arquitectos de información.
Documentar procesos, diccionarios de datos y metodologías de transformación.
Habilidades técnicas indispensables
conocimientos requeridos: spark, hadoop, hive, databricks, azure data factory, gcp, airflow, dataflow, etl, sql, oltp/olap, python, scala, java, modelado dimensional (estrella/copo de nieve), apis
competencias clave: procesos etl / elt: diseño y automatización de pipelines.
Ecosistemas big data: spark (sql, scala, python), hadoop, hive, databricks.
Cloud data platforms: azure data factory, azure databricks, google cloud dataproc/dataflow, bigquery.
Bases de datos y sql: sql avanzado y optimización de consultas.
Modelado de datos: modelos dimensionales (estrella/copo de nieve).
Integración y apis: conexión a sistemas oltp/olap y exposición vía apis rest.
Automatización y orquestación: apache airflow, oozie, adf, ci/cd 034 integración...gineer.pdf.
Lenguajes de programación: python, scala, java, r.
Data quality y monitoreo: validación de datasets y control de errores.
Metodologías ágiles: scrum/safe.
Habilidades técnicas deseables
certificaciones deseables: azure data engineer associate, google cloud data engineer, databricks certified data engineer, scrum fundamentals.
#j-18808-ljbffr