Categories
54cuatro

Como asegurar la calidad en un entorno de Data Lake

A menudo nos preguntan cómo aseguramos la calidad de los datos en los #DataLakehouses. En este artículo, exploraremos la necesidad de validar los datos, qué datos deben validarse y cómo hacerlo. Estos son aspectos con los que muchas empresas lidian al iniciar su viaje hacia los Data Lakehouses.

Illustrate a serene lake surrounded by data center buildings with network cables and binary code streams flowing into the water, symbolizing a data lake in a digital landscape. Add some clouds shaped like storage and database icons above the lake, representing cloud storage solutions. Ensure the image has a harmonious blend of nature and technology.

¿Por qué es importante la calidad de los datos?
La #calidad de los datos es crucial. La falta de validación puede tener numerosos efectos operativos y estratégicos para cualquier organización, desde decisiones incorrectas hasta pérdida de ingresos y daño a la reputación. En áreas altamente reguladas, una mala calidad de datos puede tener consecuencias legales y financieras.

Marco de calidad y gobernanza de datos
Antes de implementar soluciones, es esencial definir un marco de calidad y #gobernanza de datos que contemple desde la estrategia de la organización hasta los acuerdos sobre el procesamiento de la calidad de los datos.
En 54cuatro hacemos mucho énfasis en la importancia de una adecuada gobernanza de datos.

Gestión Intrusiva vs. No Intrusiva de la Calidad de Datos
Al validar los datos, puedes optar por no interrumpir los flujos de datos (no intrusiva) o detenerlos si se detectan problemas (intrusiva), dependiendo de las tolerancias a errores y las potenciales demoras que esto pueda causar.

Gestión de la Calidad de Datos en la Fuente o en la Arquitectura Lakehouse
La gestión de la calidad de los datos puede realizarse tanto en la fuente como en la arquitectura Lakehouse. Cada enfoque tiene sus ventajas, desde la detección temprana de errores hasta la adaptación flexible a los cambios en los requisitos de calidad de los datos.

Diseño Común de Lakehouse
El patrón de arquitectura que siguen los data lakehouses se llama Arquitectura Medallion, combinan las capacidades de los data lakes y los data warehouses, estructurados típicamente en capas (bronce, plata, oro) con controles de calidad de datos en cada una para asegurar la organización y optimización de los datos.

Capa de Bronce: Almacena datos brutos, enfocándose en la completitud, consistencia y precisión.
Capa de Plata: Contiene datos procesados, con énfasis en la precisión y la consistencia. Este es un buen stage para practicar la calidad.
Capa de Oro: Guarda datos de la más alta calidad, concentrándose en la precisión, consistencia, completitud y oportunidad.

Consideraciones Tecnológicas
Para la validación inicial de datos, tecnologías como Autoloader en Databricks y marcos personalizados en Synapse son útiles. Para capas posteriores, herramientas como DLT, DBT y Great Expectations ofrecen integración, automatización y flexibilidad en la gestión de la calidad de los datos.

Conclusión:
La calidad de los datos es un proceso continuo que requiere monitoreo, validación y actualización regulares. Elegir una tecnología que se adapte y escale con tu organización es clave para proporcionar datos de calidad consistentemente y apoyar la toma de decisiones informada y el crecimiento del negocio.

Categories
54cuatro

Articulo de Data Governance (creado con ayuda externa)

Utilizamos #OpenGPT para crear este artículo acerca de Gobernanza de Datos.

Su respuesta  fue la siguiente:

La gobernanza de datos es el conjunto de políticas, procesos y prácticas que se utilizan para asegurar que los datos se manejan de manera ética, legal y eficaz. La gobernanza de datos es esencial para garantizar que los datos se utilizan de manera responsable y se protegen contra el uso no autorizado o la exposición.

La #gobernanza de datos se divide en dos categorías: la gobernanza de datos interna y la gobernanza de datos externa. La gobernanza de datos interna se refiere a cómo se manejan los datos dentro de una organización, mientras que la gobernanza de datos externa se refiere a cómo se manejan los datos fuera de una organización.

La gobernanza de datos interna incluye la creación de políticas y procedimientos para el manejo de datos, la designación de responsabilidades para el manejo de datos, la implementación de medidas de seguridad para proteger los datos y la capacitación del personal en cuanto a cómo manejar los datos de manera ética y legal.

La gobernanza de datos externa incluye la creación de acuerdos de confidencialidad y privacidad con terceros, la implementación de medidas de seguridad para proteger los datos al compartirlos con terceros y cumplir con las leyes y regulaciones aplicables.

La gobernanza de datos es especialmente importante en un mundo cada vez más digital, donde los datos son un recurso valioso y su protección es esencial para garantizar la privacidad y seguridad de las personas. Además, la gobernanza de datos también es esencial para garantizar la confianza de los clientes y cumplir con las regulaciones aplicables.

En resumen, la gobernanza de datos es esencial para garantizar que los datos se manejan de manera ética, legal y eficaz. Es importante tanto para proteger la privacidad y seguridad de las personas como para garantizar la confianza de los clientes y cumplir con las regulaciones aplicables. Una buena gobernanza de datos requiere políticas y procedimientos adecuados, responsabilidades claras, medidas de seguridad efectivas y capacitación del personal.

Que opinan? En un futuro puede OpenGPT ser una alternativa a creadores de contenidos y medios digitales?

Categories
54cuatro

La liquidez de los datos como activo estratégico

Cuando administra sus datos como un activo, evalúa el valor que tiene para su negocio, establece metas para utilizarlos, hace planes de inversión y mide el #ROI de sus proyectos. En otras palabras, administra sus datos como lo haría con activos tangibles como productos, equipos o bienes raíces.

Para monetizar los datos, las empresas primero deben crear activos de datos estratégicos, es decir, transformarlos para que puedan tener “liquidez” (reutilización y recombinación) y permitir la creación de nuevo valor.

Preparación de activos de datos estratégicos para su reutilización y recombinación

La liquidez de los datos es algo constante, no una condición binaria, por lo que un activo de datos en particular puede ser más o menos líquido que otro. Los datos de muchas empresas tienen baja liquidez (ej: pueden estar atrapados en procesos comerciales burocráticos, bloqueados en herramientas poco flexibles, etc.) o pueden ser inaccesibles simplemente porque están incompletos, son inexactos o están mal clasificados o definidos.

Es fundamental reconocer que los datos no tienen que tratarse como activos tradicionales de una empresa. Los elementos físicos (edificio, oficina, mobiliario, etc.), la tierra e incluso el efectivo se van a deteriorar o agotar con el tiempo. En cambio, los datos son diferentes y se pueden reutilizar y recombinar libremente sin degradación.

Los activos de datos nacen para ser líquidos, pero si bien los datos son reutilizables y pueden recombinarse de forma inherente, la organización debe activar deliberadamente estas características. Y un buen lugar para comenzar es con los activos de datos estratégicos que tienen potencial para la creación y apropiación de valor en el futuro.

Estos activos estratégicos tienen innumerables usos posibles en toda la empresa; algunos se conocen y otros surgirán con el tiempo. Los activos de datos estratégicos generalmente incluyen datos de clientes, datos de comportamiento de canales digitales, datos de productos y otros datos que informan el desempeño comercial y las necesidades del cliente y son relevantes para las áreas de toda la empresa.

El propósito de los activos de datos estratégicos

Pasar del simple uso de datos a la creación de activos de datos estratégicos líquidos, las empresas deben descontextualizar los datos con un propósito designado y preparar cada activo para que sea preciso, completo, actual, estandarizado y comprensible en toda la organización.

Este proceso puede suponer la implementación de procesos como la gestión de datos maestros, la gestión de metadatos, la integración de datos, la gestión de la calidad de los datos, entre otros. También las capacidades de monetización de datos como, por ejemplo, la ciencia de datos, la comprensión del cliente, análisis de comportamiento y las capacidades de uso de datos, pueden impulsar un aumento en la liquidez.

A medida que más activos de datos estratégicos de una empresa se vuelven más líquidos, los datos están cada vez más disponibles para su conversión en valor, lo que acelera la monetización de datos de la empresa.

Por lo tanto, las estrategias de monetización deben abarcar todos los elementos de la gestión del dato, incluida la gestión de datos maestros (administración, seguridad, validación, etc.), la #gobernanza de #datos (gestión de procesos comerciales, cumplimiento normativo, gestión de riesgos, políticas, procedimientos, etc.) y calidad de los datos (arquitectura, integración, pruebas, etc.).

Cabe recordar que los datos nunca se agotan, nunca se desgastan y además se pueden usar en forma ilimitada. Grandes ventajas al momento de reutilizar y recombinar datos para generar valor.

Categories
54cuatro

Data Management – ¿Como llevar a cabo una estrategia de gestión exitosa?

El crecimiento de los datos se torna exponencial desde hace algunos años a hoy. Pero ese crecimiento no se ve reflejado en la utilidad que se hace de ellos, en gran medida, debido a que el porcentaje de crecimiento de datos corresponde a datos complejos de analizar.

Para simplificar esa complejidad y poder sacar valor de los datos, es que es tan importante una estrategia de Data Management.

¿Como llevar a cabo una estrategia adecuada?

Una estrategia de gestión de datos que generen valor para la organización, debe concentrarse en algunos puntos, a saber:

  1. Planificar que tipos de datos y pipelines va a requerir una plataforma analítica para resolver un caso de negocios
  2. Ser meticuloso en la gestión de la “calidad del dato”
  3. Crear un ciclo de vida
  4. Gestionar la ‘metadata’
  5. Cree políticas adecuadas
Data Governance: Development, Roles & Benefits | CC CDQ

Estos 5 puntos son los títulos iniciales que requiere administrar como puntapié inicial de su estrategia de datos.

Vamos a ampliar cada punto para entender por que.

Planificar que tipos de datos y pipelines va a requerir una plataforma analítica para resolver un caso de negocios

Los proyectos de analítica suelen surgir siguiendo la regla ‘explorar los datos para ver que se encuentra’.

Contrariamente a este proceso habitual, los proyectos de analítica deben nacer planteando el requisito de negocios, y desde allí conseguir los datos adecuados. Esto trae como finalidad evitar 2 cuestiones. Una es encontrarse con datos sucios, evitando los procesos complejos de limpieza que se deben realizar para que tengan usabilidad. Y dos, permite considerar que datos son útiles, de dónde provienen y cómo se almacenarán.

Ser meticuloso en la gestión de la “calidad del dato”

La calidad del dato es un aspecto cada dia mas importante. La calidad (#dataquality) tiene que ver con muchas cuestiones. Datos inconsistentes, datos repetidos, info desactualizada. Hay muchas cuestiones que pueden atentar contra la calidad, pero ademas de corregir el dato en si mismo, es importante detectar porque se genera informacion de baja calidad.

¿Hay áreas en las que se producen duplicaciones de la información?

La respuesta proactiva en este caso es detectar la fuente de las inconsistencia para así aplicar reglas que corrijan ciertos procesos o acciones. Con esto vamos a lograr un aumento de la calidad.

Crear un ciclo de vida

Como analizamos en el punto anterior, para optimizar la calidad debemos establecer reglas. Y un buen proceso de creación de reglas es considerar establecer un ciclo de vida de los datos, donde podamos definir:

  • Identificar el #linaje de los datos
  • Establecer procesos de creación y eliminación
  • Formas de almacenar
  • Políticas que definan como compartirá con terceros
  • Etc

El ciclo de vida es nuestra hoja de ruta para comprender la calidad y la utilidad de nuestros datos.

Gestionar la ‘metadata’

La #metadata es una gran amiga de los procesos de #gobernanza. Es un repositorio donde podemos contar con la informacion de como viaja la data, como se almacena, como se gestionan los cambios, etc.

Un buen plan de #governance cuenta con una gestión apropiada de los #metadatos, y principalmente se establece una identificación de los datos para asegurar la calidad, el compliance, la gestión y colaboración de nuestra info.

Cree políticas adecuadas

En el punto anterior mencionamos que la metadata permite crear una base de gestión que entre otras cosas, asegura el compliance.

Establecer políticas permite garantizar la importancia de nuestros datos, y conocer a detalle los impactos que tienen los mismos sobre la organización, gestionando el crecimiento del volumen de la informacion, su gestión y su usabilidad. Como mencionamos, el crecimiento del volumen de la info es exponencial y tener políticas adecuadas para la gestión de los mismos lo encontrara en gran forma para hacer frente a cambios, nuevas fuentes y nuevos requisitos de negocios que sean planteados.

Conclusión

Las empresas mas avanzadas en materia de gestión de datos están aplicando técnicas de #MachineLearning para su categorización y administración, pero aquellas con un poco mas de retraso, comenzar a establecer políticas de gestión de datos es un gran paso hacia la dirección de tener una estrategia integral de datos para la organización.

CONCLUSIÓN ANÁLISIS FODA – Escuela América E – 26

En este breve post quisimos mostrar aquellos hitos fundamentales en cuenta a #DataManagement, pero existen muchos mas condicionantes a tener en cuenta.

Para mayor informacion pueden contactarse con nosotros desde el siguiente formulario.


    Please prove you are human by selecting the tree.

    Categories
    54cuatro

    El valor de la Gobernanza

    Ya nadie discute que los nuevos negocios dentro de las compañías, nacen aprovechando toda la informacion que guardaron estos años, y son esos datos los que permite crear nuevos productos, nuevos negocios, conocer mas a los clientes.

    Pero también es necesario mencionar que se tiende a simplificar el “como” se usan esos datos. Los datos aportan valor si son confiables y de calidad, y para ello es necesario conocer su contenido y estructura.

    En esta nota vamos a mencionar el camino recomendado para adoptar soluciones de #InteligenciaArtificial en la analítica partiendo desde una metodología de #gobernanza que asegure la calidad de los datos.

    La fase de Recolección de Datos

    El primer desafío es Recolectar la informacion que poseen las empresas, y en este sentido el desafío principal pasa por realizar una modernización de los procesos y flujos, para identificar todos aquellas bases de datos, tablas, archivos que tenemos a disposición para consumir esa informacion.

    La fase de Organización de Datos

    El segundo punto es Organizar esa informacion, generando un lenguaje común, para que todos los usuarios (de negocios y TI) conozcan todos los datos que estamos manejando, que exista una relación entre el lenguaje comercial y el lenguaje técnico; donde podamos generar Dueños de Datos. Estos Dueños de Datos (data stewardship) es lo que nos va a permitir la gestión y supervisión de los activos de datos de nuestra organización para ayudar a proporcionar a los usuarios comerciales datos de alta calidad.

    Estos niveles de calidad son fundamentales si queremos tener reportes fidedignos; y por tal motivo vamos a correr procesos de Curación, Gestión de Metadatos, Linaje y Catalogo, entre otros procesos que serán los que dejaran lista una base de datos lista para el negocio.

    La fase de Análisis de Datos

    La fase de Organización nos va a permitir saltar a la fase de Análisis, donde vamos a poder armar #Dashboards y #Reportes desde informacion confiable, y eso se va a permitir:

    • Encontrar: Acceso mas rápido a la informacion
    • Confiar: Entender de donde provienen los datos y porque se puede confiar en ellos
    • Preparar: Limpiar, estructurar y enriquecer datos crudos para transformarlos en informacion procesada
    • Actuar: Generar nuevos resultados comerciales desde Análisis mas confiables.

    Infundir: la capa de análisis inteligente

    Luego de haber creado una plataforma de integración robusta, de tener identificado nuestros datos como activos y de generar reportes confiables, vamos a implementar una capa de Analítica Avanzada, donde logremos descubrir tendencias y patrones que mejoren la toma de decisiones mediante técnicas de exploración cognitiva.

    En este punto soluciones de #MachineLearning logran destrabar el valor de los datos, permitiendo generar nuevos productos basados en el reconocimiento 360° de los clientes, detectar necesidades de la industria o simplemente lograr identificar cosas que siempre estuvieron invisibles a un análisis tradicional.

    Que arquitecturas nos proponen los vendors?

    Existe un consenso de la industria en torno al armado de arquitecturas de datos en distintas capas. La gran mayoría son plasmadas en gráficos que se pueden “leer” de izquierda a derecha, conformados por:

    • Capa Fuentes de Datos: donde contamos con los orígenes de datos, estos orígenes pueden ser bases de datos, webs, archivos, eventos, sensores, etc.
    • Capa de Integración: desde donde se efectúa el comportamiento relacionado a la orquestación del movimiento, transformación e ingesta de los datos.
    • Capa de Procesamiento: donde se ejecutan los procesos analíticos, ya sea en cubos.
    • Capa de Visualización: donde finalmente se presentan de forma amigable lo referido a reportes de cara a los usuarios.

    A continuación veamos algunos esquemas de alto nivel que proponen #IBM y #Microsoft.

    Arquitectura de Data provisto por IBM

    Arquitectura de Data provisto por Microsoft en Azure

    Conclusiones finales

    Las tecnologías de análisis están al alcance de la mano de todos. En los últimos años, el crecimiento de la generación de datos es exponencial y lo seguirá siendo; y en paralelo las tecnologías cloud generaron una disminución en el costo del storage, mayor procesamiento, consumo “por uso” y aplicaciones apilables que nos permiten desarrollar una plataforma en la nube con muy poco esfuerzo.

    Pero el mayor valor de una plataforma de datos no esta dado por la tecnología sino por los requerimientos de negocios que resolvemos.

    Desde #54cuatro alentamos a nuestros clientes a convertirse en empresas inspiradas por los datos, donde la informacion sea un catalizador de nuevas ideas; y es por eso que no hacemos recomendaciones tecnológicas sin entender los requisitos, porque nosotros ofrecemos practicas y metodologías de gestión de datos (que entre otras cosas incluye el factor tecnológico) donde el mayor valor del análisis se da cuando se gestiona la informacion como un asset y donde la calidad asegura que los reportes mejoren la toma de decisiones, el servicio al cliente y el ROI.


    [popup_anything id=”2076″]

    Categories
    54cuatro

    Que soluciona DataOps

    Ya hicimos entradas de #DataOps (operaciones de datos), pero para refrescar la memoria decimos: es la conjunción de personas, procesos y tecnología que permiten manejar datos que sean de utilidad para #desarrolladores, #datascientist, #operaciones, #aplicaciones y herramientas (ej #inteligencia #artificial), permitiendo canalizar los datos, mantenerlos seguros durante su ciclo de vida y configurar una #gobernanza sobre los mismos.

    Mientras mas rapido manipulemos y entreguemos los datos, mas rápido sera el crecimiento para el negocio por el uso de la informacion, por lo tanto, su objetivo es promover prácticas y procedimientos de gestión de datos que mejoren la velocidad y precisión de los análisis.

    Short-list con 5 problemáticas básicas que son resueltas con la implementación de DataOps en una organización.

    Veamos que nos resuelve DataOps:

    #Corrección de errores: además de mejorar la agilidad de los procesos de desarrollo, DataOps tiene el poder de impulsar el tiempo para responder a errores y defectos reduciendo los tiempos significativamente.

    #Eficiencia: en DataOps, los especialistas de datos y los desarrolladores trabajan juntos y, por lo tanto, el flujo de información es horizontal. En lugar de comparar información en reuniones semanales o mensuales, el intercambio ocurre regularmente, lo que mejora significativamente la eficiencia comunicacional y los resultados finales.

    #Objetivos: DataOps proporciona a desarrolladores y especialistas en datos en tiempo real sobre el rendimiento de sus sistemas.

    #Silos de datos : DataOps enfrenta a los silos de datos que se generan en distintos departamentos o gerencias de una empresa, muchos grupos ven sus operaciones como “quintas” inviolables en las cuales cada silo es una barrera para el éxito para implementar mejores estrategias de administración de datos. La implementación de un governance correcto es crucial para la obtención de todas las fuentes de datos que requiere la organización para cumplir con sus objetivos de negocios.

    #Skills: es un hecho que los profesionales de datos no abundan. La falta de disponibilidad de las personas adecuadas para administrar proyectos de #BigData y #BI (#BusinessAnalytics) significa que los proyectos no sean ejecutados en tiempo y forma, o peor aun, que fallen. Es un error poner más datos en un equipo que no tiene el conocimiento y los recursos para manejarlos.

    Vea nuestro workshop de DataOps

    Los invitamos a unirse a nuestro Grupo en Linkedin de “DataOps en Español

    [popup_anything id=”2076″]