Administrar y optimizar el ciclo de vida de los datos en un entorno basado en aws, desde su adquisición y transformación hasta su almacenamiento seguro y su disponibilidad para análisis y toma de decisiones. La posición es clave para garantizar que la organización aproveche eficazmente sus recursos de datos en aws, colaborando con otros equipos y aplicando mejores prácticas de ingeniería de datos para habilitar soluciones escalables, confiables y costo-eficientes.
responsabilidades principales
1. recopilación e ingesta de datos
2. adquirir datos de diversas fuentes internas/externas y asegurar su ingestión y almacenamiento en aws de manera eficiente y segura.
3. procesamiento y transformación (etl/elt)
4. diseñar y ejecutar procesos etl/elt para limpiar, transformar y enriquecer datos, asegurando calidad y utilidad para consumo analítico.
5. diseño y gestión de almacenamiento
6. diseñar y mantener soluciones escalables y seguras en aws (data lake/warehouse/bases de datos) para garantizar disponibilidad y rendimiento.
7. automatización y orquestación
8. desarrollar flujos automatizados y orquestar procesos de datos usando servicios/herramientas de aws para una operación programada, eficiente y confiable.
9. seguridad y cumplimiento
10. implementar controles para proteger datos confidenciales y cumplir políticas/regulaciones aplicables (permisos, accesos, cifrado, auditoría).
11. monitoreo y optimización
12. supervisar y optimizar performance, costos y confiabilidad de los procesos de datos (métricas, alertas, capacidad, tuning).
13. colaboración técnica y comunicación
14. coordinar con equipos de analítica, ingeniería, arquitectura y negocio; comunicar avances, riesgos y decisiones técnicas con claridad.
requisitos:
indispensables
* experiencia mínima: 4 años en ingeniería de datos en entornos cloud (ideal aws).
* dominio de sql (consultas complejas) y bases de datos relacionales/no relacionales.
* experiencia práctica construyendo y operando pipelines etl/elt.
* conocimiento sólido de arquitectura de datos: diseño de pipelines, esquemas eficientes, resiliencia y escalabilidad.
* programación en al menos uno: python (preferente), java, scala o sql avanzado.
* capacidad para documentar, colaborar y comunicar temas técnicos de forma clara.
escolaridad: licenciatura (preferente) en ingeniería/licenciatura en sistemas o afín (informática, matemáticas, estadística).
herramientas y conocimientos clave (muy importantes)
aws (datos):
* amazon s3, redshift, glue, emr, lambda, dynamodb, rds
* deseable: kinesis (streaming/eventos)
big data:
* apache spark / hadoop (por ejemplo en emr)
orquestación/automatización:
* aws step functions, glue workflows o aws data pipeline
monitoreo/optimización:
* cloudwatch (métricas, alertas) y buenas prácticas de eficiencia/costo
* deseable: trusted advisor (u operación equivalente)
contenedores (deseable):
* ecs/eks (nociones prácticas)
versionamiento:
* git (control de versiones; deseable conocimiento de iac)
cursos deseables:
* big data, aws, devops
certificaciones (deseables, no excluyentes):
* aws certified data analytics / solutions architect