El valor que podemos obtener de los Datos depende de sólo dos cosas:
- Precisión de los Datos
- Eficiencia con la que podemos acceder a los Datos que necesitamos, cuando los necesitamos
- ¿Qué es la Ingenería en Datos?
- Índice
- Ecosistema de Datos moderno
- Actores clave en el ecosistema de Datos
- ¿Qué es la ingeniería de Datos?
- Definición de Ingenería en Datos
- Evolución de la Ingenería en Datos
- Cómo ha evolucionado la Ingeniería en Datos
- Resumen y aspectos destacados
- Módulo 1 Prueba de Práctica 1
- Responsabilidades y habilidades de un Ingeniero de Datos
- Cualidades y Habilidades para ser Ingeniero de Datos
- Un día en la vida de un Ingeniero de Datos
- Aplicaciones de la Ingenería de Datos
- Resumen y aspectos destacados
- Examen de Módulo 1
Hay una variedad de fuentes de datos diversas y dinámicas, por lo que al trabajar con fuentes tan diferentes lo que se requiere es una copia de estos. En esa etapa solo se busca adquirir los dato necesarios por lo que se trabaja con formatos de datos, fuentes e interfaces a travées de las cuales se pueden estraer estos datos.
La confiabilidad, la seguridad y la integridad de los datos
Roles:
-
Ingenerio de datos
- Se encarga de mantener las arquitecturas de datos y disponen que los datos estén disponibles para operaciones y análisis comerciales.
- Estos trabajan dentro de ecosistemas de datos para Extraer, Integrar, Organizar Fuentes dispares; estos también limpiaran, transformaran y preparan los datos; así como diseñar, almacenar y gestionar datos en repositorios.
- Esto permite que los datos sean accesibles en formatos y sistemas que las diversas aplicaciones comerciales, así como partes interesadas como analistas de datos y científicos de datos puedan utilizar.
- Un ingeniero de datos debe tener buenos conocimientos de programación, sólidos conocimientos de sistemas y arquitecturas tecnológicas y una comprensión profunda de las bases de datos relacionales y no relacionales.
-
Analista de datos
- En resumen, un analista de datos traduce datos y n´meros a un lenguaje sencillo, para que las organizaciones puedan tomar decisiones.
- Estos inspeccionan y limpian datos para obtener información de valor.
- Se encargan de una serie de tareas las cuales son:
- Identificar correlaciones
- Encontrar patrones
- Aplicar métodos estádisticos para analizar
- Extraer datos
- Visualizar datos para interpretar y presentar los hallazgos del análisis
- Los análistas son las personas que resonden preguntas como "¿Las experiencias de búsqueda de los usuarios son generlamente buenas o malas con la función de búsqueda en nuestro sitio?" o "¿Existe una correlación entre las ventas de un producto y de otro?"
- Estos requieren una serie de habilidades profesionales con herramientas como hojas de cálculo, redacción de consultas, uso de herramientas estádisticas para la creación de gráficos y paneles de control así como habilidades de programación.
- También es requerido una habilidad solida en analíticas y para contar historias.
-
Científicos de datos
- Analizan datos para obtener información procesable y crean Machine Learning o Deep Learning, así como modelos de IA.
- Estos responden a preguntas como ¿cuántos nuevos seguidores en las redes sociales habrá en el próximo mes?, ¿Es probable que lo reciba el próximo mes?, ¿Qué procentaje de mis clientes es probable que perderá frente a la competencia o el próximo trimestre? o ¿Es esta transacción financiera inusual para el cliente?
- Los requerimentos para ser un cientifico de datos son:
- conocmientos de matemáticas
- Estadísticas
- Excelente comprensión de la programación
- Comprensión de las bases de datos
- Construcción de modelos de datos
- Dominio
-
Analista de negocios y Business Intelligence(BI)
- El análista de negocios aprovechan el trabajo de los analistas de datos y científicos de datos pra analizar posibles implicaciones para el negocio y las acciones que deben tomar o recomendar
- Consisten en aproverchar los grandes almacenes de datos y transformarlos en conocimientos que aporten valor a la empresa.
- Los BI hacen lo mismo que el análista de negocios excepto que se centra en las fuerzas de mercado e influencias externas que dan forma al negocio.
- Proporcionan soluciones de inteligencia empresarial organizando y monitoreando datos de diferentes funciones comerciales y exploran esos datos para extraer conocmientos y acciones procesealbes que mejoren el rendimiento del negocio
-
En resumen
- Ingeniero en Datos convierte datos sin procesar en datos utilizables
- Analista de Datos utiliza estos datos para genera conocmientos
- Científico de datos utilizan el análisis de datos y la ingenería de datos para predecir el fturo utilizando datos del pasado
- Analista de negocio y Bussiness Intelligence utilizan estos conocmientos y predicciones que beneficien y hagan crecer su negocio.
- El campo de la ingeneriá de datos se ocupa del flujo y acceso de datos.
- Su objetivo es poner a disposición datos de calidad para la investigación de hechos y la toma de decisiones basadas en datos.
- Esto es posible gracias a que la el campo de la Ingeniería de Datos se ocupa de las tareas:
- Recopilación de datos de las fuentes de origen
- Integración
- Organizar datos de diferenes fuentes
- Para recopilar los datos requeridos debe:
- Desarrollar herramientas
- Flujos de trabajo
- Diseñar
- Mantener la arquitecutra de datos
- Hacer estructuras escalables para el almacen de datos
- Esto es posible gracias a que la el campo de la Ingeniería de Datos se ocupa de las tareas:
- Los datos pueden almacenarse en:
- Bases de datos
- Data Warehouses
- Data lakes
- Cualquier otro tipo de repositorio de datos
- Procesamiento de datos:
- Limpiarlos
- Transformarlos
- Prepararlos para que sean utilizables
- Habilidades requeridas para el procesamiento de datos:
- Implementar y Mantener sistemas distribuidos para el proceamiento de datos a gran escala
- Diseñar pipelines para la extracción, transformación y carga de datos en repositorios de datos.
- Implementar soluciones para validar y salvagardar la calidad, la privacidad y la seguridad de datos.
- Optimizar herramientas, sistemas y flujos de trabajo para lograr rendimiento, confiabilidad y escalabilidad.
- Asegurarse de que los datos cumplan con las pautas reglamentarias y de cumplimiento.
- Almacenamiento de datos para una disponibilidad fácil y confiable de los datos
- Herramientas requeridas para el proceamiento de datos
- Diseñar e implementar almacenes de datos para guardar los datos ya procesados.
- Corroborar que los sistemas sean escalables, teniendo en cuenta la naturaleza dinámica que estos tienen y las necesidades comerciales.
- Asegúrarse de que existan herramientas y sistemas que cuiden la privacidad de los datos, la seguridad el cumplimento, monitores, respaldo y recuperación.
- Esto incluye el uso de:
- API, servicios y programs que recuperan datos sobre parámetros definidos para el uso de los usuarios finales.
- Interfaces y paneles que presenten datos a los usuarios para que puedan obtener información de ellos.
- Asegurarse de la existencia de medidas y controles y contrapesos adecuados para matnener los datos seguros y proporcionar acceso basado en derechos a los usuarios.
Nota: Es importante mencionar que la ingenería de datos es un trabajo en equipo.
por ejemplo: para el diseño de cualquier sistema de gestión de datos, ya sea para recopilar datos de origen o para almacenar datos procesados y listos pra el análisis, es necesario tener habilidades de un arquitecto.
Para garantizar que los almacenes de datos estén disponibles y optimizados para su uso, es necesario tener experiencia en bases de datos.
La ingeniería de datos es el proceso de preparar los datos para que los análistas de datos y científicos de datos puedan disponer de los datos de manera segura y confiable. Por ejemplo, pueden ayudar a los analistas de datos y científicos de datos con la elección de las bases de datos adecuadas y herramientas así como construyendo los canales de datos necesarios para ayudar con sus necesidades de datos y constuir sus informes y realizar análisis estadísticos.
La reelevancia que tiene hoy en día un rol de Ingeniero en datos es significativa respecto a hace 20 decadas debido a que los formatos de archivos y la manera en la cual se genera una gran cantidad de datos a crecido demasiado con nuevas tecnologías como lo son LoT generando una variedad de fuentes de información que requieren de su unificación para el análisis por lo cual ahora es imprescindible un rol como este en las empresas.
Pregunta 1
¿Qué tecnología emergente a hecho posible que todas las compañias tengasn acceso casi ilimitado a almacenamiento y alto rendimiento computacional?
Cloud Computing
Respuesta: Correcto, El computo en la nbe a hecho posible que todas las empresas independientemente de su tamaño tengan almacenamiento ilimitado y alto rendimiento computacional a costo de demanda.
¿Cuál de los roles de datos es responsable de extraer, integrar y organizar los datos dentro de repositorios?
Data Engineer
Respuesta: Correcta El ingenerio en datos es el resonsable de extreaer, integrar y organizar los datos dentro de repositorios de datos
El campo de la ingeniería de datos se conenctra en los mecanismos de flujo y acceso a los datos. ¿Cuál de las siguientes afirmaciones captura el proposito de un ingeniero en datos?
Poner los disponibles los datos de calidad para la investigación de hechos y toma de decisiones empresariales
Respuesta: Correcto La ingeneria de datos es el proceso de recolectar datos sin procesar y convertislos en datos listos para su análisis limipiando, transformando y preparando los tados para que eesto sean confiables.
¿Qué necesitan los datos pra estar listos para un análisis?
- Estos deben ser precisos, confiables y cumplir con las regulaciones que se rigen, accesible para los consumidores cuando lo necesitan.
En un nivel amplio los ingenieros en datos hacen lo siguiente:
- Extrean
- Organizan
- Integran datos de fuentes diferentes
- Preparan los datos para análisis e informes
- Diseñan y gestionan canales de datoa que abarquen desde el origen al sistema de destino
- Configuran y gestionan la infraestructura necesaria para la ingesta, el procesmianeo y el almacenamiento de los datos.
- Esto incluye plataformas de datos, almacenes para agregar datos de origen, sistemas distribuidos para el procesamiento de datos a gran escala y repositorios de datos. Para el procesmaiento de datos a gran escala y repositorios de datos para su almacenamiento y distribución
- Trabajos en distintos sistemas operativos como UNIX, Linux y Windows, incluidos herramientas administrativas, utilidades del sistema y comandos de uso común.
- Conocimiento en componentes de la infraestructura, como maquinas virtuales, redes y aplicaciones de servicios; como el equilibrio de carga y la supervisión del rendimiento de las aplicaciones.
- Asemás, servicios basados en la nube como los que ofrecen Amazon, oGoogle, IBM y Microsoft.
- Experiencia de trabajo cno bases de datos y almacenes de datos que incluyen:
- RDBMS como IBM DB2, MySQL, Oracle Database y PostgreSQL
- Bases de datos NoSQL como Redis, MongoDB, Cassandra y Neo4J.
- Almacenes de datos como Oracle
- Exadata
- IBM Netezza Performance
- Servicos
- Amazon Redshift
- Un nivel de comptencia trabajando con canalizaciones de datos.
- Las soluciones de canalización de datos populaes incluyen Apache Beam, AirFlow y DataFlow.
- Experiencia trabajando con herramientas ETL como:
- IBM Infosphere Information Server
- AWS
- Dominio de idiomas para consultas, manipulación y procesmiento de datos que incluyen:
- Lenguajes de consulta para acceder y maninpular datos en una base de datos, como SQL D para relaciones.
- bases de datos y lenguajes de consulta similares a SQL para bases de datos NoSQL,
- Lenguajes de progrmación como Python, R y Java
- Lenguajes Sheel y Scripting, como Unix/Linux Shell y PowerShell
- Familiaridad con herramientas de procesamiento Big Data como Hadoop, Hive y Spark.
Nota: Tener un conocimiento práctico de tecnologías comparablees puede ayudarla a evaluar las ventajs y desventajas entre diferentes herramientas y hacer recomendaciones apropiadas.
La ingeneria de datos se encuentra en la intersección de ingeniería de software y la ciencia de datos
Además de las herramientas y tecnologiás que los ingenieros de dato sutilizan a diario, deben de tener un profundo conocimiento de cómo los citntíficos de datos, los análistas, empresas y usuarios aproechan los daos listos para el análisis.
Algunas de las habilidades funcionaes que le servirán como ingeniero de datos son:
- La capacidad de convertir los requisitos comerciales en especificaciones técnicas.
- Trabajar con el ciclo de vida completo de desarrollo de software que incluye:
- Ideación
- Arquitectura
- Diseñp
- Creación de prototipos
- Pruebas
- Implementación
- Monitoreo
- Compresión de la posible aplicación de los datos en los negocios
- Y una coomprensión de los riesgos de una mala gestión de datos que esencialmente cubre calidad, privacidad, seguridad y cumplimento de los datos
Podriá tener varios ingenieros de datos que aporten su especialización para colaborar en un proyecto, interactuand estrechamente con los consumidores de datos que incluyen a los analistas, cintíficos, usuarios empresariales y otros equipos técnicos.
Por lo tanto, las habilidades interpersonales, el trabajo en equipo y la colaboración son esenciales para los ingenieros de datos. Por lo que se debe tener:
- Habilidad para poder comunicarse de manera efectiva tanto con lso técnicos y partes interesadas no técnicas de manera que pueda establcer un entendimiento claro.
NOTA:
Ningún inteniero de datos puede dominar cada una de estas habilidades, lo que significa que básicamente, necesita seleccionar una o más áreas de especialización,, pero tener un buen conocimiento de todas las áres para que pueda tomar decisiones más informadas.
Las habilidades creceran con la experiencia, las áreas de elección para concentrarse y el tiempo que inviertes en mejorar tus habilidades.
Es necesario buscar experiencia con bases de datos relaciones y Cassandra o el tipo de arquitectura de Google Bittable para aplicaciones que estén funcionanod todo el año.
También constuir pipelines usando kafka o Streams y WebSphere MQ para realizar algún procesmiato administrativo de los datos transaccionales.
Todo depende del sector en el cual uno se desenpeñe y vaya requiriendo para el tipo de demanda que va requiriendo cada aplicación.
Es importante tener conocimiento en:
- Estructura de datos
- Cómo trabajar con los datos
Nota: Hay muchs cambios en cualquier campo de datos y tienes que estar dispuesto a seguir adelante con ese cambio.
- Se requiere estar entendido con los diferentes tipos de almacenes, almacenes locales así como en la nube.
- Conocimiento en programación
Nota: Un ingeniero de datos debe ser muy competente en SQL
- SQL
- Modelado de datos
- Metodologías ETL
- Habilidades de programación
- Bueno en el trabajo en equipo
- Colaboración y comunicación
- (Desde una perspectiva no técnica) Se espera que un ingeniero de datos sea un solucionador de problemas.
- Buenas habilidades de comunicación
Nota: Las habilidades má imiporntantes son habilidades blandas.
Necesitas pdoer interactuar acon lso desarrolladores Poder defender tu opciones a la gestión Justificar las elecciónes, el por qué son importantes, y por qué hay que hacer las cosas de una manera particular.
En esta sección se habla de cómo una empresa de productos para el cabello necesita obtener datos de multiples fuentes y automatizar su tiempo para conseguir el objetivo de poder tener la percepción en tiempo real de un lanzamiento nuevo de un producto.
Las metodologías ETL (Extract, Transform, Load) son un conjunto de procesos y técnicas utilizados en la gestión y transformación de datos en proyectos de análisis de datos y almacenamiento en almacenes de datos (data warehouses) o data lakes. Estas metodologías son esenciales para garantizar que los datos sean limpios, coherentes y listos para su análisis. Aquí te explico todo lo que debes saber sobre las metodologías ETL si eres un ingeniero de datos:
-
Extract (Extraer):
- En esta fase, se obtienen los datos de diversas fuentes, como bases de datos, sistemas de registro, archivos planos, API web, y más.
- La extracción implica copiar los datos de origen y llevarlos a un lugar centralizado para su procesamiento.
- Los datos extraídos pueden ser crudos o semiestructurados, lo que significa que pueden requerir limpieza y transformación antes de su uso.
-
Transform (Transformar):
- La fase de transformación es donde los datos se modifican, enriquecen y se ajustan para satisfacer las necesidades del análisis.
- Las tareas de transformación pueden incluir:
- Limpieza de datos: Identificar y corregir errores, valores faltantes o inconsistentes.
- Filtrado de datos: Seleccionar solo los datos relevantes para el análisis.
- Estandarización: Alinear formatos y unidades de medida.
- Normalización: Convertir datos en un formato coherente.
- Agregación: Resumir datos para análisis de alto nivel.
- Enriquecimiento: Incorporar datos adicionales, como información geográfica o datos calculados.
-
Load (Cargar):
- En la fase de carga, los datos transformados se almacenan en un almacén de datos, que puede ser un data warehouse, data lake o cualquier otro sistema de almacenamiento centralizado.
- Los datos se organizan en tablas o estructuras adecuadas para facilitar el análisis y el acceso posterior.
- La carga puede ser incremental o completa, dependiendo de las necesidades del negocio y la frecuencia de actualización de los datos.
Ahora, aquí hay algunos conceptos adicionales relacionados con las metodologías ETL:
-
ETL Batch vs. ETL en Tiempo Real:
- ETL Batch se refiere a procesos que se ejecutan en lotes programados, generalmente durante la noche, para actualizar los datos.
- ETL en Tiempo Real implica el procesamiento de datos a medida que se generan, lo que permite la toma de decisiones más rápida pero requiere una infraestructura más compleja.
-
Herramientas ETL:
- Existen varias herramientas ETL disponibles, tanto de código abierto como comerciales, que facilitan la implementación de estos procesos. Ejemplos populares incluyen Apache NiFi, Talend, Informatica, y Apache Spark.
-
Calidad de Datos:
- Garantizar la calidad de los datos es fundamental en ETL. Esto incluye la validación de datos, la gestión de errores y la auditoría para asegurar que los datos sean precisos y fiables.
-
Monitoreo y Mantenimiento:
- Los procesos ETL deben ser monitoreados de cerca y actualizados según sea necesario para adaptarse a cambios en los datos de origen o en los requisitos del negocio.
En resumen, las metodologías ETL son esenciales en la gestión de datos para garantizar que los datos sean útiles y confiables para su análisis. Como ingeniero de datos, debes ser competente en la implementación de estos procesos y estar al tanto de las mejores prácticas y las herramientas disponibles en el campo del ETL.
Un pipeline en ingeniería de datos es un conjunto de pasos secuenciales que se utilizan para procesar, transformar y mover datos desde su origen hasta su destino final. Estos pipelines son esenciales para garantizar la gestión eficiente de datos en proyectos de análisis, procesamiento y almacenamiento. Aquí te explico todo lo que debes saber acerca de los pipelines en ingeniería de datos:
-
Origen de Datos:
- Un pipeline comienza en el origen de datos, que puede ser una fuente como bases de datos, sistemas de registro, archivos planos, servicios web, sensores, o cualquier otra fuente de información.
-
Extracción de Datos:
- El primer paso del pipeline generalmente implica la extracción de datos desde la fuente. Esto puede involucrar la consulta de bases de datos, la lectura de archivos, la captura de datos en tiempo real, etc.
- Es importante garantizar que los datos extraídos sean integrales y precisos.
-
Transformación de Datos:
- Después de la extracción, los datos a menudo se someten a una serie de transformaciones. Estas transformaciones pueden incluir limpieza, filtrado, agregación, enriquecimiento y normalización de datos.
- La transformación es crucial para preparar los datos para su análisis y asegurarse de que sean coherentes y relevantes.
-
Transporte de Datos:
- Una vez que los datos se han transformado, se transportan desde el lugar de extracción al lugar de destino. Esto puede involucrar el movimiento de datos entre servidores, sistemas de almacenamiento o servicios en la nube.
-
Carga de Datos:
- En la fase de carga, los datos se almacenan en el destino final, que podría ser un data warehouse, data lake, base de datos, o cualquier otro sistema de almacenamiento.
- Los datos se estructuran y organizan según las necesidades del análisis.
-
Programación y Orquestación:
- Los pipelines suelen ser programados y orquestados para ejecutarse en horarios específicos o en respuesta a eventos desencadenantes.
- Herramientas como Apache Airflow, Apache NiFi, y otros, se utilizan para administrar y programar pipelines de manera eficiente.
-
Monitoreo y Gestión de Errores:
- Es fundamental monitorear el estado de los pipelines y gestionar los errores de manera adecuada. Si un paso del pipeline falla, es importante registrar el error y tomar medidas correctivas.
-
Seguridad y Cumplimiento:
- La seguridad de los datos es esencial en la ingeniería de datos. Se deben implementar medidas de seguridad y cumplir con las regulaciones pertinentes, como el RGPD en Europa o HIPAA en el ámbito de la salud en EE. UU.
-
Escalabilidad y Rendimiento:
- Los pipelines deben diseñarse para ser escalables y poder manejar grandes volúmenes de datos y aumentos en la carga de trabajo.
-
Documentación y Mantenimiento:
- Es fundamental documentar los pipelines para que sean comprensibles por otros miembros del equipo. Además, se debe mantener y actualizar regularmente para adaptarse a cambios en los datos o en los requisitos del negocio.
En resumen, un pipeline en ingeniería de datos es un proceso estructurado y automatizado que permite la gestión eficiente de datos desde su origen hasta su destino, pasando por etapas de extracción, transformación, transporte y carga. Estos pipelines son esenciales para garantizar que los datos sean útiles y confiables para su análisis y toma de decisiones en el mundo empresarial. Como ingeniero de datos, es importante comprender y dominar la construcción y gestión de pipelines efectivos.
- ¿Cuál de estas habilidades es esensiales para un rol de ingenería de datos?
- Configurar y administrar la infraestructura requeriada para la ingesta, procesamiento y almacenamiento de datos.
- De acuerdo con Sarah Flinck, ¿qué se necesita tener rastreado y analizando para mantener al negocio actualizado acerca de los sentimientos d elos consumidores.
- Redes socuales, reseñas de consumidores, califaicaciones en plataformas digitales y reseñas de bloqueros.