Empleado de tiempo completo
posición hibrida en cdmx
al menos 4 años de experiencia en el diseño y construcción de pipelines de datos escalables, trabajando con bases de datos relacionales, optimización de consultas complejas y modelado de datos.
responsabilidades principales:
desarrollo etl: diseñar, desarrollar y mantener procesos etl eficientes utilizando pentaho data integration (pdi) para la extracción, transformación y carga de datos desde diversas fuentes.
gestión de pipelines de datos: construir y gestionar pipelines de datos robustos, escalables y eficientes que respalden iniciativas de análisis, informes y aprendizaje automático.
optimización de bases de datos: escribir y optimizar consultas sql complejas para garantizar el rendimiento de bases de datos relacionales como mysql, postgresql, oracle u otros rdbms.
modelado de datos: diseñar e implementar esquemas y modelos de bases de datos que aseguren la integridad de los datos y respalden las necesidades de informes.
optimización de rendimiento: optimizar el rendimiento de pipelines de datos, trabajos etl y bases de datos, identificando cuellos de botella y mejorando las consultas o procesos.
integración de datos: colaborar con equipos multifuncionales para integrar diversas fuentes de datos y garantizar un flujo de datos fluido hacia el almacén de datos de la organización.
aseguramiento de calidad: implementar validaciones y controles de calidad de datos para asegurar la precisión y fiabilidad de los datos.
documentación: mantener documentación detallada de pipelines de datos, arquitectura y procesos para asegurar claridad y facilidad de uso.
requisitos:
experiencia: 4+ años de experiencia en ingeniería de datos o un campo relacionado.
conocimientos de pentaho: dominio de pentaho data integration (pdi) u otras herramientas etl similares.
conocimientos de bases de datos: sólidos conocimientos de bases de datos relacionales (por ejemplo, mysql, postgresql, oracle) y técnicas de optimización de consultas.
habilidades en sql: habilidades avanzadas en sql, con capacidad demostrada para escribir y optimizar consultas complejas.
modelado de datos: experiencia en modelado de datos y diseño de esquemas de bases de datos.
pipelines de datos: experiencia práctica en el diseño y gestión de pipelines de datos y flujos de trabajo.
optimización de rendimiento: experiencia en la optimización del rendimiento de bases de datos y trabajos etl.
resolución de problemas: fuertes habilidades analíticas y de resolución de problemas con atención al detalle.
colaboración: capacidad para trabajar de manera colaborativa con analistas de negocios, científicos de datos y otros ingenieros.
habilidades preferidas:
experiencia con soluciones de datos en la nube (por ejemplo, aws, azure, google cloud).
familiaridad con tecnologías de big data (por ejemplo, hadoop, spark).
conocimientos en almacenamiento de datos y herramientas de bi (por ejemplo, tableau, power bi).
familiaridad con lenguajes de scripting (por ejemplo, python, bash) para automatización.
#j-18808-ljbffr