Categories
54cuatro

El Manifiesto de Ingeniería del Caos orientada a los Datos

Hemos tomado 5 principios de ingeniería del caos de este post de Toward Science aplicados a la gestión de datos.

El “#Chaos #Engineering” o “Ingeniería del Caos” en tecnología es una práctica que consiste en introducir de manera controlada y planificada ciertos niveles de caos en un sistema informático en producción para evaluar su resiliencia y capacidad de recuperación frente a situaciones inesperadas o fallos.

El objetivo del Chaos Engineering es identificar posibles puntos débiles en la arquitectura del sistema y mejorar la calidad del software. Para ello, se realizan pruebas de estrés en condiciones simuladas de fallo y se mide el impacto en el sistema para evaluar cómo este responde a situaciones adversas. De esta manera, se puede mejorar la capacidad de recuperación del sistema ante fallos reales y minimizar el impacto en los usuarios.

Las pruebas de #ChaosEngineering se realizan de forma controlada y planificada para minimizar los posibles impactos en la operativa del sistema en producción. Para ello, se utiliza una metodología basada en la observación, el aprendizaje y la mejora continua del sistema.

Los principios y las lecciones de la ingeniería del caos son un buen lugar para comenzar a definir los contornos de una disciplina de ingeniería del caos de datos. Nuestra primera ley combina dos de las más importantes.

Primera ley: tenga un sesgo para la producción, pero minimice el radio de explosión

Existe una máxima entre los ingenieros de site reliability que resultará cierta para todos los ingenieros de datos que hayan tenido el placer de que la misma consulta SQL arroje dos resultados diferentes en los entornos de producción y ensayo. Es decir, “Nada actúa como producción excepto por producción”.

A eso yo agregaría, “datos de producción también”. Los datos son demasiado creativos y fluidos para que los humanos los anticipen. Los datos sintéticos han recorrido un largo camino, y no me malinterpreten, pueden ser una pieza del rompecabezas, pero es poco probable que simulen casos clave.

Al igual que yo, la mera idea de introducir puntos de falla en los sistemas de producción probablemente le revuelva el estómago. Es aterrador Algunos ingenieros de datos se preguntan con razón: “¿Es esto necesario dentro de una pila de datos moderna donde tantas herramientas abstraen la infraestructura subyacente?”

Me temo que sí. Recuerde, como ilustran la anécdota inicial y los ligamentos rotos de J-Kidd, la elasticidad de la nube no es una panacea.

De hecho, es esa abstracción y opacidad, junto con los múltiples puntos de integración, lo que hace que sea tan importante realizar pruebas de estrés en una pila de datos moderna. Una base de datos local puede ser más limitante, pero los equipos de datos tienden a comprender sus umbrales, ya que los alcanzan con mayor frecuencia durante las operaciones diarias.

Dejemos atrás las objeciones filosóficas por el momento y sumerjámonos en lo práctico. Los datos son diferentes. Introducir datos falsos en un sistema no será útil porque la entrada cambia la salida. También se va a poner muy desordenado.

Ahí es donde entra en juego la segunda parte de la ley: minimizar el radio de explosión. Existe un espectro de caos y herramientas que se pueden utilizar:

  • En palabras solamente, “digamos que esto falló, ¿qué haríamos?”
  • Datos sintéticos en producción
  • Técnicas como diferencia de datos que le permiten probar fragmentos de código SQL en datos de producción
  • Las soluciones como LakeFS le permiten hacer esto a mayor escala mediante la creación de “ramas de caos” o instantáneas completas de su entorno de producción, donde puede usar datos de producción pero con un aislamiento total.
  • Hágalo en producción y practique sus habilidades de relleno. Después de todo, nada actúa como producción, sino producción.

Comenzar con escenarios menos caóticos es probablemente una buena idea y lo ayudará a comprender cómo minimizar el radio de explosión en la producción.

Profundizar en los incidentes de producción reales también es un excelente lugar para comenzar. ¿Todos realmente entienden lo que sucedió exactamente? Los incidentes de producción son experimentos de caos por los que ya pagó, así que asegúrese de aprovecharlos al máximo.

Mitigar el radio de explosión también puede incluir estrategias como la copia de seguridad de los sistemas aplicables o contar con una solución de monitoreo de calidad de datos u observabilidad de datos para ayudar con la detección y resolución de incidentes de datos.

Segunda Ley: Comprende que nunca es un momento perfecto (dentro de lo razonable)

Otro principio de ingeniería del caos se sostiene para observar y comprender el “comportamiento de estado estable”.

Hay sabiduría en este principio, pero también es importante comprender que el campo de la ingeniería de datos no está listo para medirse con el estándar de “5 9s” o 99,999 % de tiempo de actividad.

Los sistemas de datos están en constante cambio y existe una gama más amplia de “comportamiento de estado estable”. Habrá la tentación de retrasar la introducción del caos hasta que haya alcanzado el punto mítico de “preparación”. Bueno, no puede superar la arquitectura de los datos incorrectos y nadie está preparado para el caos.

El cliché de Silicon Valley de fallar rápido es aplicable aquí. O, parafraseando a Reid Hoffman , si no te avergüenzan los resultados de tu primer evento pre-mortem/simulacro de incendio/caos, lo presentaste demasiado tarde.

La introducción de incidentes de datos falsos mientras se trata de incidentes reales puede parecer una tontería, pero en última instancia, esto puede ayudarlo a salir adelante al comprender mejor dónde ha estado poniendo curitas en problemas más importantes que pueden necesitar ser refactorizados.

Tercera Ley: Formular hipótesis e identificar variables a nivel de sistema, código y datos

La #ingenieriadelcaos fomenta la formación de hipótesis sobre cómo reaccionarán los sistemas para comprender qué umbrales monitorear. También fomenta el aprovechamiento o la imitación de incidentes pasados ​​del mundo real o incidentes probables.

Profundizaremos en los detalles de esto en la siguiente sección, pero la modificación importante aquí es garantizar que abarquen el sistema, el código y los niveles de datos. Las variables en cada nivel pueden crear incidentes de datos, algunos ejemplos rápidos:

  • Sistema: no tenía los permisos correctos establecidos en su almacén de datos.
  • Código: Una mala setencia de left JOIN.
  • Datos : un tercero le envió columnas basura con un montón de NULLS.

Simular mayores niveles de tráfico y apagar los servidores afecta los sistemas de datos, y esas son pruebas importantes, pero no descuide algunas de las formas más únicas y divertidas en que los sistemas de datos pueden fallar.

Cuarta Ley: Todos en una habitación (o al menos llamada Zoom)

Esta ley se basa en la experiencia de mi colega, el ingeniero de confiabilidad del sitio y experto en caos Tim Tischler .

“La ingeniería del caos se trata tanto de personas como de sistemas. Evolucionan juntos y no se pueden separar. La mitad del valor de estos ejercicios proviene de poner a todos los ingenieros en una habitación y preguntar, ‘¿qué sucede si hacemos X o hacemos Y?’ Tiene la garantía de obtener respuestas diferentes. Una vez que simulas el evento y ves el resultado, ahora los mapas mentales de todos están alineados. Eso es increíblemente valioso”, dijo.

Además, la interdependencia de los sistemas de datos y las responsabilidades crea líneas borrosas de propiedad, incluso en los equipos mejor dirigidos. Las rupturas a menudo ocurren, y se pasan por alto, en esas superposiciones y brechas en la responsabilidad donde el ingeniero de datos, el ingeniero analítico y el analista de datos se señalan el uno al otro.

En muchas organizaciones, los ingenieros de productos que crean los datos y los ingenieros de datos que los gestionan están separados y aislados por estructuras de equipo. También suelen tener diferentes herramientas y modelos del mismo sistema y datos. Siéntase libre de atraer también a estos ingenieros de productos, especialmente cuando los datos se han generado a partir de sistemas construidos internamente.

Una buena gestión y clasificación de incidentes a menudo puede involucrar a varios equipos y tener a todos en una habitación puede hacer que el ejercicio sea más productivo.

También agregaré por experiencia personal que estos ejercicios pueden ser divertidos (de la misma manera extraña, poner todas tus fichas en rojo es divertido). Animo a los equipos de datos a que consideren un simulacro de incendio de ingeniería de datos del caos o un evento pre-mortem en el próximo lugar externo. Es un ejercicio de vinculación de equipo mucho más práctico que salir de una sala de escape.

Quinta Ley: Por el momento, absténgase de la automatización

Los programas de ingeniería del caos verdaderamente maduros como Simian Army de Netflix están automatizados e incluso no programados. Si bien esto puede crear una simulación más precisa, la realidad es que las herramientas automatizadas no existen actualmente para la ingeniería de datos. Si lo hicieran, no estoy seguro de si sería lo suficientemente valiente como para usarlos.

Hasta este punto, uno de los ingenieros de caos originales de Netflix ha descrito cómo no siempre usaron la automatización, ya que el caos podría crear más problemas de los que podrían solucionar (especialmente en colaboración con quienes ejecutan el sistema) en un período de tiempo razonable.

Dada la evolución actual de la confiabilidad de la ingeniería de datos y el mayor potencial para un radio de explosión no intencionalmente grande, recomendaría que los equipos de datos se inclinen más hacia eventos programados y cuidadosamente administrados.

Resumen

Para aplicar la ingeniería del caos en la gestión de datos, se pueden seguir algunos principios, como tener un sesgo para la producción y minimizar el radio de explosión. Es importante entender que los datos son diferentes y que introducir datos falsos en un sistema no será útil. Por eso, se pueden utilizar herramientas como la diferencia de datos o soluciones como LakeFS, que permiten crear ramas de caos o instantáneas completas del entorno de producción para realizar pruebas con datos reales.

También es importante comprender que nunca habrá un momento perfecto para realizar pruebas de ingeniería del caos y que es necesario tener en cuenta estrategias de mitigación del riesgo, como la copia de seguridad de los sistemas o el monitoreo de calidad de datos. Al profundizar en los incidentes de producción reales, se pueden obtener valiosas lecciones sobre cómo mejorar la resiliencia del sistema.

En resumen, la ingeniería del caos puede ser una herramienta útil para mejorar la calidad y resiliencia del software en la gestión de datos, siempre y cuando se realicen de manera planificada y controlada.

Categories
54cuatro

Comunicado: 54cuatro comprometido con el balance entre la vida personal y la vida laboral

En la actualidad, el equilibrio entre la vida laboral y personal se ha convertido en un tema de importancia creciente en la sociedad. Para muchas personas, el trabajo se ha convertido en un factor dominante en sus vidas, lo que puede generar estrés, agotamiento y otros problemas de salud mental.

“Work balance” es una expresión que se refiere al equilibrio entre la vida laboral y la vida personal. Se trata de encontrar un punto medio entre las responsabilidades y demandas del trabajo y las responsabilidades y deseos personales y familiares, de manera que se puedan satisfacer ambas áreas sin que una se convierta en el foco principal de la vida en detrimento de la otra.

El objetivo del work balance es evitar que las personas se sientan abrumadas y estresadas por las exigencias del trabajo, lo que puede llevar a problemas de salud mental, emocional y física. Cuando las personas logran un equilibrio entre su vida laboral y personal, se sienten más felices, saludables y motivadas, lo que a su vez puede llevar a un aumento en la productividad y la satisfacción en el trabajo.

Por esta razón, las empresas están implementando políticas y prácticas que ayudan a sus empleados a encontrar un equilibrio entre su trabajo y sus responsabilidades personales y familiares. En 54cuatro, una empresa dedicada al desarrollo de soluciones de datos y software, se han implementado diversas políticas que promueven el equilibrio entre la vida laboral y la vida personal. Una de ellas es la vestimenta casual, que permite que los empleados vistan de manera cómoda y sin restricciones. Esta política puede parecer trivial, pero en realidad tiene un gran impacto en el bienestar de los empleados, ya que les permite sentirse más cómodos y relajados en el lugar de trabajo. Otra política implementada por 54cuatro es la de vacaciones flexibles, lo que significa que los empleados pueden tomar tiempo libre cuando lo necesiten y ajustar sus horarios de trabajo de acuerdo a sus necesidades personales. Esta política es muy importante, ya que permite a los empleados tomar un descanso cuando lo necesitan, lo que puede reducir el estrés y aumentar la motivación y la productividad. Además, en 54cuatro se cuenta con un horario de trabajo flexible y un lugar de trabajo flexible. Los empleados pueden trabajar en horarios que les permitan atender responsabilidades personales y familiares, y pueden elegir el lugar desde donde trabajar, ya sea en las oficinas de la empresa o desde casa. Esta política es muy importante, ya que permite a los empleados equilibrar sus responsabilidades laborales con sus responsabilidades personales de manera más efectiva. Todas estas políticas implementadas por 54cuatro tienen un objetivo común: promover el bienestar y la felicidad de los empleados. Al ofrecer un ambiente de trabajo que permite un equilibrio saludable entre la vida laboral y personal, la empresa está demostrando su compromiso con el bienestar de sus empleados y su éxito a largo plazo. En la actualidad, muchas empresas están adoptando políticas similares para fomentar el equilibrio entre la vida laboral y la vida personal. Estas políticas pueden incluir desde vacaciones pagadas y días de descanso hasta horarios de trabajo flexibles y opciones de trabajo desde casa. La implementación de estas políticas no solo es importante para el bienestar de los empleados, sino que también puede aumentar la productividad, mejorar la retención de empleados y atraer a nuevos talentos. En conclusión, el equilibrio entre la vida laboral y la vida personal es crucial para el bienestar de los empleados y el éxito de la empresa. 54cuatro es un buen ejemplo de una empresa que ha implementado políticas que fomentan este equilibrio. Al proporcionar a los empleados la flexibilidad necesaria para equilibrar sus responsabilidades laborales y personales, la empresa está demostrando su compromiso con el bienestar de sus empleados y su éxito a largo plazo.

Categories
54cuatro

Sea en la nube o localmente, comercial u open source, pero avance

Este post trata sobre la demora en la toma de decisiones y esta dedicado a directores y gerentes.Diferencia entre gerente y director de una empresa | OBS Business School

 

Muchas veces nos encontramos hablando con potenciales clientes que se encuentran analizando si implementar en la nube, on premise, una solución comercial o una solución open source.

Cuando se trata de elegir una plataforma para su negocio, hay muchas opciones disponibles. Una de las decisiones más importantes que deben tomar los usuarios es si elegir una plataforma cloud o una plataforma on premise. Ambas opciones tienen sus pros y sus contras, por lo que es importante considerarlos cuidadosamente antes de tomar una decisión.

Pero este analisis, no puede ser eterno. No siempre es posible tomar la decisión correcta, pero es importante recordar que es mejor tomar una decisión y actuar, incluso si resulta ser incorrecta, en lugar de no hacer nada en absoluto. Para eso estamos los proveedores, justamente para arrojar claridad, dar recomendaciones y poder plantear desafíos a las ideas establecidas e incluso presentar nuevas ideas.

No te cierres a nuevas ideas y perspectivas. Mantén una mente abierta y está dispuesto a considerar nuevas opciones y perspectivas antes de tomar una decisión.

Si usted está pensando en migrar a la #nube, todas las nubes populares tienen servicios similares. Algunas nubes tienen ventajas en algunos servicios, y otras en otros. Algunos tienen mejores costos en algunos servicios, y otras en otros.

Si usted opta por quedarse en su #datacenter puede usar #hyperV o #vmware, y ambas son soluciones valiosas. Quizás crea que no puede generar un #datalake en el on-premise, y esto es incorrecto. Cloudera es una solución que da soporte comercial a plataformas de código abierto.

Cloudera ofrece una amplia gama de productos y soluciones, desde su plataforma de análisis de #BigData #Cloudera Enterprise hasta herramientas de ciencia de datos y aprendizaje automático. Todos estos productos están diseñados para ser escalables, seguros y de fácil uso, y están respaldados por un equipo de soporte y desarrollo altamente capacitado.

Si esta dudando o demorando una decisión, piense en término de portabilidad

La portabilidad se refiere a la capacidad de un sistema o aplicación para ser ejecutado en diferentes entornos o plataformas sin necesidad de realizar cambios significativos en su código o configuración.

Siguiendo el ejemplo anterior. Supongamos que va a implementar un lago de datos, pero no esta seguro si hacerlo en #AWS para no generar un vendor lockin, construya una arquitectura que use componentes standard y que eso le permita el día que quiera irse a #Azure.

El vendor lock-in es una situación en la que un cliente o usuario está atrapado o “bloqueado” con un proveedor o vendedor específico debido a la interdependencia entre el producto o servicio que el proveedor ofrece y la infraestructura tecnológica del cliente. En este escenario, el cliente puede tener dificultades para cambiar de proveedor o dejar de utilizar el producto o servicio sin sufrir costos significativos o interrupciones en su operación diaria.

Si usted utiliza un servicio 100% de propiedad intelectual de un vendor, claramente puede tener ventajas asociadas en cuanto a su rapidez en la implementación, performance, simplicidad, etc. Pero el lado B, suele ser que cualquier solución compleja montada sobre sistemas de este tipo, quedan cautivas. Por eso, un arquitecto empresarial debe considerar que tan complejo sería mover un software, una aplicación, una plataforma, un conjunto de datos, o lo que fuere, de una nube a otra, incluso que tan complejo sería que la operación fuera #multicloud.

Evitar el vendor lockin es parte de una buena arquitectura. En lugar de depender de un solo proveedor de nube, el multicloud permite a las organizaciones elegir los servicios que mejor se adapten a sus necesidades específicas y utilizarlos en conjunto para obtener la mejor solución para su negocio. Planear una plataforma multicloud, es una práctica que recomendamos. Las funciones de un Director de proyectos según la guía del PMBOK 6ta  edición - La Oficina de Proyectos de Informática

La idea de este post, es incentivarlo a que de una manera u otra, capitalice la experiencia de partners, de arquitectos y técnicos que sabrán indicarle que decisión tomar, y que junto a un buen diseño de la arquitectura, su decisión estará segura porque siempre podrá moverse, evolucionar, cambiar y mejorar.

Categories
54cuatro

Comparativa entre herramientas de ETL

ETL es un acrónimo que significa Extracción, Transformación y Carga. Es un proceso utilizado en la gestión de datos para recopilar datos de diferentes fuentes, limpiarlo y transformarlo en un formato adecuado para su análisis y utilización en un sistema de información. Luego se carga en una base de datos o sistema de almacenamiento para su uso futuro. Es una técnica comúnmente utilizada en la integración de datos.

Existen herramientas open source, comerciales e incluso serverless provistas por cloud providers.
ETL (Extraction, Transformation & Load) – La Taberna del BI

¿Que herramienta de #ETL usar?

Talend es una plataforma de integración de datos que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Utiliza una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, lo que facilita la creación de tareas de integración de datos para usuarios sin experiencia en programación. Además, #Talend ofrece una amplia gama de componentes preconstruidos que se pueden utilizar para conectarse a diferentes fuentes de datos, como bases Talend Data Fabric - Opiniones, precios y características - Capterra Colombia 2023de datos, aplicaciones empresariales y servicios web. Estos componentes se pueden personalizar y combinar para adaptarse a las necesidades específicas de cada proyecto.

 

______________

Pentaho Data Integration (PDI) es una herramienta de integración de datos open-source que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Utiliza una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, conocida como Spoon, que facilita la creación de tareas de integración de datos para usuarios sin experiencia en programación.Qué es Pentaho Data Integration (PDI) y para qué sirve?

PDI tiene una amplia gama de componentes preconstruidos, llamados transformaciones y tareas, que se pueden utilizar para conectarse a diferentes fuentes de datos, como bases de datos, aplicaciones empresariales y servicios web. Estos componentes se pueden personalizar y combinar para adaptarse a las necesidades específicas de cada proyecto. También cuenta con herramientas para la limpieza y análisis de datos, así como para la generación de informes y la creación de dashboards.

PDI se utiliza en conjunto con el resto de herramientas de la suite Pentaho, como #Pentaho Report Designer y Pentaho Analyzer, para crear soluciones completas de Business Intelligence.

______________

Apache NiFi es una plataforma de flujo de datos open-source que permite la captura, flujo, transformación y distribución de datos a través de una interfaz gráfica de usuario fácil de usar. Es una herramienta altamente escalable y escalable que se puede utilizar para automatizar y optimizar los flujos de trabajo de datos en una variedad de entornos, desde pequeñas aplicaciones hasta implementaciones de gran escala.

Tus datos se cambian de casa? Apache NiFi te ayuda con la mudanza - Future Space S.A.

NiFi utiliza una arquitectura basada en flujos para organizar y controlar los datos, lo que permite a los usuarios crear flujos de trabajo de integración de datos mediante la arrastrado y soltado de componentes preconstruidos en una interfaz gráfica de usuario. Estos componentes, conocidos como procesadores, se pueden utilizar para realizar tareas como la captura de datos, la transformación de datos, la validación de datos y la distribución de datos a diferentes destinos.

#NiFi también cuenta con características avanzadas, como la capacidad de manejar y procesar datos en tiempo real, la seguridad y el control de acceso, y la monitorización y la gestión de flujos de trabajo. También tiene una integración con otras herramientas y tecnologías de big data, como Apache #Kafka, Apache #Storm y Apache #Hadoop.

Y que hay de los serverless, los que son ejecutados en las #cloud?

Azure Data Factory (ADF) es una plataforma de integración de datos en la nube de Microsoft que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Es un servicio en la nube que se ejecuta en Microsoft Azure y se utiliza para automatizar los flujos de trabajo de integración de datos.

ADF utiliza una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, llamados “pipelines”, que se componen de diferentes “actividades” que representan tareas específicas, como la copia de datos, la transformación y el procesamiento. Estas actividades se pueden utilizar para conectarse a diferentes fuentes de datos, como bases de datos, aplicaciones empresariales y servicios web, y para copiar y mover datos entre estos sistemas.

ADF también cuenta con herramientas para la automatización de tareas, como la planificación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de Microsoft Azure, como #Azure Data Lake Storage, Azure SQL Data Warehouse y #PowerBI.

Ademas, ADF tiene la capacidad de escalar automáticamente para manejar grandes volúmenes de datos y también cuenta con una variedad de opciones de seguridad y cumplimiento.

______________

AWS Glue es una plataforma de integración de datos en la nube de Amazon Web Services (AWS) que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Es un servicio en la nube que se ejecuta en AWS y se utiliza para automatizar los flujos de trabajo de integración de datos.

AWS #Glue ofrece una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, llamados “jobs”, que se componen de diferentes “tareas” que representan tareas específicas, como la copia de datos, la transformación y el procesamiento. Estas tareas se pueden utilizar para conectarse a diferentes fuentes de datos, como bases de datos, aplicaciones empresariales y servicios web, y para copiar y mover datos entre estos sistemas.

AWS Glue también cuenta con herramientas para la automatización de tareas, como la planificación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de AWS, como Amazon S3, Amazon Redshift y Amazon Athena.

Ademas, AWS Glue cuenta con un catálogo de metadatos, que permite a los usuarios registrar y gestionar información sobre sus datos, como estructura, relaciones y calidad de los datos. También tiene la capacidad de escalar automáticamente para manejar grandes volúmenes de datos y cuenta con opciones de seguridad y cumplimiento. Asimismo, AWS tiene otro servicio que se llama #DataPipeline.

AWS Data Pipeline es un servicio de #Amazon Web Services (#AWS) que permite automatizar la transferencia y la transformación de datos entre diferentes sistemas de almacenamiento y procesamiento de datos. Es un servicio en la nube que se ejecuta en AWS y se utiliza para crear flujos de trabajo de integración de datos y automatizar tareas relacionadas con la gestión de datos.

Con AWS Data Pipeline, los usuarios pueden crear flujos de trabajo de integración de datos mediante la definición de “tareas” y “relaciones” entre ellas. Cada tarea representa una actividad específica, como la copia de datos desde una fuente a un destino, la ejecución de una transformación o la ejecución de un script. Las relaciones entre las tareas definen el orden en que deben ejecutarse las tareas.

AWS Data Pipeline también cuenta con herramientas para la planificación automatizada de tareas, como la programación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de AWS, como Amazon #S3, Amazon #RDS y Amazon EMR.

Ademas, AWS Data Pipeline tiene la capacidad de escalar automáticamente para manejar grandes volúmenes de datos y cuenta con opciones de seguridad y cumplimiento. También permite a los usuarios monitorear y supervisar el progreso de los flujos de trabajo y detectar y solucionar problemas de manera eficiente.

______________

Google Cloud Dataflow es una plataforma de procesamiento de datos en la nube de #Google Cloud Platform (#GCP) que permite la ejecución de tareas de procesamiento y transformación de datos a gran escala. Es un servicio en la nube que se ejecuta en GCP y se utiliza para crear flujos de trabajo de integración de datos y automatizar tareas relacionadas con la gestión de datos.

Con Cloud #Dataflow, los usuarios pueden crear flujos de trabajo de procesamiento de datos mediante la definición de “tareas” y “relaciones” entre ellas. Cada tarea representa una actividad específica, como la lectura de datos desde una fuente, la ejecución de una transformación, la escritura de datos en un destino. Las relaciones entre las tareas definen el orden en que deben ejecutarse las tareas.

Dataflow permite a los usuarios crear flujos de trabajo utilizando un lenguaje de programación #Java o #Python, y utiliza un modelo de programación de tuberías y filtros para procesar los datos. Ademas, Dataflow es escalable y maneja de manera automática la distribución y el balanceo de carga para procesar grandes volúmenes de datos.

Dataflow también cuenta con herramientas para la planificación automatizada de tareas, como la programación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de GCP, como #BigQuery, Cloud Storage, Cloud Pub/Sub.

Esperamos que esta nota haya sido de interés, y si tienes dudas puedes ponerte en contacto con nosotros.

[popup_anything id=”2076″]

 

 

Categories
54cuatro

Articulo de Data Governance (creado con ayuda externa)

Utilizamos #OpenGPT para crear este artículo acerca de Gobernanza de Datos.

Su respuesta  fue la siguiente:

La gobernanza de datos es el conjunto de políticas, procesos y prácticas que se utilizan para asegurar que los datos se manejan de manera ética, legal y eficaz. La gobernanza de datos es esencial para garantizar que los datos se utilizan de manera responsable y se protegen contra el uso no autorizado o la exposición.

La #gobernanza de datos se divide en dos categorías: la gobernanza de datos interna y la gobernanza de datos externa. La gobernanza de datos interna se refiere a cómo se manejan los datos dentro de una organización, mientras que la gobernanza de datos externa se refiere a cómo se manejan los datos fuera de una organización.

La gobernanza de datos interna incluye la creación de políticas y procedimientos para el manejo de datos, la designación de responsabilidades para el manejo de datos, la implementación de medidas de seguridad para proteger los datos y la capacitación del personal en cuanto a cómo manejar los datos de manera ética y legal.

La gobernanza de datos externa incluye la creación de acuerdos de confidencialidad y privacidad con terceros, la implementación de medidas de seguridad para proteger los datos al compartirlos con terceros y cumplir con las leyes y regulaciones aplicables.

La gobernanza de datos es especialmente importante en un mundo cada vez más digital, donde los datos son un recurso valioso y su protección es esencial para garantizar la privacidad y seguridad de las personas. Además, la gobernanza de datos también es esencial para garantizar la confianza de los clientes y cumplir con las regulaciones aplicables.

En resumen, la gobernanza de datos es esencial para garantizar que los datos se manejan de manera ética, legal y eficaz. Es importante tanto para proteger la privacidad y seguridad de las personas como para garantizar la confianza de los clientes y cumplir con las regulaciones aplicables. Una buena gobernanza de datos requiere políticas y procedimientos adecuados, responsabilidades claras, medidas de seguridad efectivas y capacitación del personal.

Que opinan? En un futuro puede OpenGPT ser una alternativa a creadores de contenidos y medios digitales?

Categories
54cuatro

Manejar Synapse con Azure DevOps

Introducción

Synapse es una plataforma de #LakeHouse de #Azure. Permite armar un #datawarehouse, un #datalake e incluso correr scripts con desarrollos de #ML.

#AzureDevOps es un producto de Microsoft que proporciona funciones de control de versiones, informes, gestión de requisitos, gestión de proyectos, compilaciones automatizadas, pruebas y gestión de versiones.

Para la administración de los desarrollos que corren en la plataforma de #Synapse, es de vital importancia entender el enfoque CI/CD para un pipeline de data.

El enfoque sobre cómo manejar CI/CD con Azure Synapse difiere bastante de su enfoque de “desarrollo de software”. La única rama que puede usar para implementar su código es la rama de publicación (workspace_publish). Esta rama se creará/actualizará cuando presione publicar en su interfaz de usuario de Synapse, después de realizar cualquier cambio.

La rama de trabajo real, donde se integran todas las solicitudes de extracción para implementar nuevas funciones, es la rama de colaboración (rama principal). Esta es también la base para sus publicaciones automatizadas.

El pipeline CI

La construcción ya está prácticamente hecha, porque todo ya está preparado como una solución lista para la implementación. Esta es la razón por la que solo necesita empaquetar su código con fines de trazabilidad y reutilización.

El pipeline CD

Esta tarea también es bastante fácil, porque puede usar una tarea predefinida llamada “Implementación del espacio de trabajo de Synapse”. Aquí solo necesita insertar su Workspace de destino, autenticarse a través de Service Connection (Suscripción). Además, debe desactivar los disparadores para una compilación limpia, pero también hay una tarea previa a la compilación para usar en Azure DevOps llamada “toggle-triggers-dev”.

Azure Synapse Analytics Security, Governance, and CI / CD

CI/CD

Y ahora ambos juntos en una canalización yaml completamente funcional. El activador siempre se activa cuando se publica una nueva plantilla de Synapse en nuestra rama de publicación.

Categories
54cuatro

El enfoque de la arquitectura Medallion

El enfoque Medallion, que es promovido principalmente por #Databricks, también es adecuado para todas las demás plataformas.

Sirve como un modelo de cómo puede construir una estructura unificada para Data Lakehouses en tres capas.

 

#Medallion, es un modelo de arquitectura en el cual su patrón de diseño se basa en la organización de un #datalake en 3 capas, una capa de Datos Sin Procesar (#Raw), una capa de Datos Filtrados, Limpios, Enriquecidos y una capa de Datos de Negocios.

Esta arquitectura garantiza la coherencia, el aislamiento y la permanencia a medida que los datos pasan por múltiples niveles de validación y transformación antes de almacenarse en un diseño optimizado para un análisis eficiente.

La división de las 3 capas nos permite asegurar que los datos brutos de los sistemas de origen se almacenan en la capa de bronce dentro de un almacenamiento que puede ser on-premise o en la nube.

En la capa de plata, estos datos se agregan y limpian técnicamente y de esa manera los datos quedan en un esquema optimizado.

En el tercer nivel, los datos se preparan y agregan para el negocio, no tanto para la optimización técnica sino para la lógica empresarial.

Categories
54cuatro

Cómo DataOps ayuda a las organizaciones a tomar mejores decisiones 

DataOps es un enfoque ágil que combina la ingeniería de datos en los procesos de operaciones. Su objetivo es crear valor comercial a partir de big data, promoviendo prácticas y procedimientos de gestión de datos que mejoren la velocidad y precisión de los análisis. Esto incluye automatización, acceso a datos, integración, control de calidad e implementación y gestión de modelos.

Los problemas resueltos por DataOps 

Los principios fundamentales de #DataOps son simples. La disciplina está formada por la metodología ágil y se esfuerza por integrar análisis de datos continuos y en tiempo real en el proceso DevOps. En la práctica, significa incorporar DevOps y personal de gestión de datos en un equipo colaborativo. 

Data Operations | Derevo

Los equipos de DataOps valoran los análisis que funcionan y determinan el rendimiento del análisis de datos por los conocimientos que ofrecen. Aquí enumeramos algunos de los problemas que DataOps resuelve: 

Corrección de errores: además de mejorar la agilidad de los procesos de desarrollo, DataOps tiene el poder de impulsar el proceso de gestión de incidentes. Es probable que la reparación de errores y defectos en los productos incluya aportes de expertos en datos y desarrollo, y también es una función comercial esencial. Con una mejor comunicación y colaboración entre grupos, el tiempo para responder a errores y defectos se reduce drásticamente. 

Eficiencia: en DataOps, los equipos de datos y de desarrollo trabajan juntos y, por lo tanto, el flujo de información es horizontal. En lugar de comparar información en reuniones mensuales, el intercambio ocurre regularmente, lo que mejora significativamente la eficiencia de la organización. 

Establecimiento de objetivos: DataOps proporciona a los equipos de desarrollo y administración, datos en tiempo real sobre el rendimiento de sus sistemas de datos. Dichos datos no son útiles para monitorear el éxito en relación con cualquier objetivo comercial. Sin embargo, si los procesos de negocios son los adecuados, los datos permiten a los gerentes ajustar y actualizar los objetivos de desempeño en tiempo real. 

Colaboración limitada: implementar flujos de trabajo de DataOps significa aumentar la colaboración entre los equipos centrados en los datos y los equipos centrados en el desarrollo. DataOps también tiene como objetivo eliminar las diferencias entre estas dos funciones comerciales.  

Respuesta lenta: uno de los desafíos más destacados que enfrentan las organizaciones hoy en día es responder a las solicitudes de desarrollo, tanto de los usuarios como de la alta dirección. En general, las solicitudes para integrar nuevas funciones incluyen los mismos reclamos que se envían hacia adelante y hacia atrás entre los científicos de datos y el equipo de desarrollo. 

Como el equipo de DataOps involucra ambas funciones, el personal puede trabajar en conjunto en nuevas solicitudes. Permite que el equipo de desarrollo sea testigo del efecto que tienen las funciones originales en el flujo de datos a través de la organización. Además, ayuda a los equipos de datos a concentrarse mejor en procesar los objetivos reales de la organización. 

Desafíos que enfrenta DataOps 

Es un hecho que más datos significan más dependencias, más puntos de falla y administración. Entonces, ¿cuáles son los desafíos que enfrentan los equipos de DataOps? 

The Difference Between Operational and Analytical Data Systems

Silos de datos: DataOps necesita hacer frente a los silos de datos que se crean como diferentes departamentos, y los equipos crean grupos de datos con procesos individualizados y estrechamente optimizados. Muchos grupos ven sus operaciones como inviolables en las que cada silo es una barrera hacia el éxito para implementar mejores estrategias de gestión de datos en toda la organización. 

Falta de uso de la nube: la mayoría de los expertos en tecnología han entendido los beneficios que ofrece la nube. Sin embargo, aún así, muchas organizaciones no almacenan sus aplicaciones en la nube. Como resultado, los equipos de DataOps están sobrecargados con aplicaciones de datos que requieren más servidores de almacenamiento y grupos reconfigurados para garantizar la optimización de la base de datos. 

Falta de habilidades: es un hecho que los profesionales de datos de todo tipo son escasos en el mercado tecnológico. La falta de disponibilidad de las personas adecuadas para administrar proyectos de Big Data significa que los proyectos no se ejecutan rápidamente o es probable que fracasen. Por lo tanto, poner más datos en un equipo que no tiene el conocimiento y los recursos para manejarlos es una forma de fallar. 

¿Qué es un marco de DataOps? 

El marco DataOps consta de cinco elementos esenciales y distintos. Los elementos son: 

1.Tecnologías habilitadoras 

Estas tecnologías incluyen inteligencia artificial (IA), aprendizaje automático (ML), herramientas de gestión de datos y automatización de TI. 

2. Arquitectura adaptativa 

La arquitectura adaptativa admite innovaciones continuas en los principales procesos, servicios y tecnologías. 

3. Enriquecimiento de datos 

Estos datos son metadatos inteligentes creados por el sistema y colocados en un contexto útil para un análisis oportuno y preciso. 

4. Metodología DataOps 

Esta metodología implica construir e implementar análisis de datos, siguiendo la gestión de su modelo y el gobierno de datos. 

5.Gente y Cultura 

Debe crear una cultura colaborativa entre las diferentes áreas de tecnología y el negocio. Esta cultura ayuda a poner la información correcta en el lugar correcto en el momento correcto para maximizar el valor de su organización. 

¿Cuál es la diferencia entre DataOps y DevOps?