Categories
54cuatro

Fortaleciendo la base piramidal del sistema financiero: cómo prevenir fraudes y estafas

Cuando trabajamos con empresas financieras, ya sean bancos o fintechs, es recurrente escuchar sobre la inclusión financiera.

La inclusión financiera nace de dar herramientas a las personas que ocupan los deciles mas bajos del sistema financiero.

El decil más bajo del sistema financiero se llama deciles 1 y 2. Estos deciles representan el 20% de las personas con los ingresos más bajos del sistema financiero.

Los deciles 1 y 2 son los que tienen menos acceso a los servicios financieros formales, como cuentas bancarias, créditos y seguros. Estos grupos suelen estar excluidos del sistema financiero debido a su situación socioeconómica, como la falta de ingresos, la educación financiera o el acceso a Internet.

La exclusión financiera puede tener un impacto negativo en las personas, ya que les dificulta ahorrar, invertir y acceder a préstamos para comprar una casa o un automóvil. Esto puede generar una mayor desigualdad económica y social.

Adicionalmente, las personas que ocupan estos deciles son más susceptibles a las promesas de altos rendimientos. Las estafas como los conocidos “esquemas piramidales” a menudo se dirigen a las personas que están buscando una forma de obtener ganancias rápidas y fáciles, y que no están dispuestas a hacer su diligencia debida para investigar la legalidad o la legitimidad de una inversión.

Existen casos populares en los últimos años, como:

  • Generación Zoe (Argentina/Latam): Generación Zoe fue un holding empresarial que operaba en Argentina y otros países de América Latina. La empresa prometía altas ganancias a sus inversores a través de un sistema de inversiones en criptomonedas y educación financiera. Sin embargo, la empresa fue acusada de ser una estafa piramidal y sus fundadores fueron detenidos en 2022.
  • Forex Magna (México): Forex Magna era una empresa que prometía altas ganancias a sus inversores a través de la inversión en divisas extranjeras. Sin embargo, la empresa fue acusada de ser una estafa piramidal y sus fundadores fueron detenidos en 2022.

Las personas que viven en la pobreza también son más vulnerables a las estafas porque pueden estar desesperadas por encontrar una forma de mejorar su situación financiera. Los esquemas piramidales a menudo se aprovechan de esta desesperación, ofreciendo falsas promesas de riqueza y prosperidad.

Algunas herramientas específicas que se pueden utilizar para ayudar a los deciles más bajos a ingresar al sistema financiero incluyen:

  • Programas de educación financiera: Estos programas pueden enseñar a las personas sobre conceptos financieros básicos, como cómo ahorrar, cómo gastar de manera responsable y cómo invertir.
  • Programas de asesoría financiera: Estos programas pueden proporcionar asesoramiento financiero gratuito o de bajo costo a las personas con bajos ingresos.
  • Plataformas de comparación de productos y servicios financieros: Estas plataformas permiten a las personas comparar opciones de productos y servicios financieros de diferentes proveedores.

La implementación de estas herramientas puede ayudar a reducir la brecha financiera y permitir que las personas de todos los niveles de ingresos accedan a los beneficios del sistema financiero.

Que pasa del otro lado. ¿Como se protege una institución financiera seria?

Las empresas financieras que quieran ser inclusivas, pero a su vez mantener su protección de datos, información y activos, deben llevar a cabo medidas de seguridad para evitar ser estafados o que les comentan fraude.

A nivel infraestructura, claramente deben confiar en el uso de firewalls, antivirus, cifrado y autenticación multifactor. Además, monitorear las actividades de sus sistemas para detectar posibles amenazas de seguridad.

A nivel educación, las amenazas más graves suelen surgir de descuidos o acciones deliberadas que nacen dentro de la misma compañia. Por eso, deben capacitar a sus empleados sobre seguridad para que puedan identificar y responder a las amenazas de seguridad. Esta capacitación debe cubrir temas como la seguridad de la información, la prevención de fraudes, detección de phising y el uso seguro de dispositivos móviles.

Lo mas importante de cara al servicio, es protegerse de fraudes o amenazas que puedan intentar perjudicar a la institución o a sus clientes. Por ese motivo, es de vital importancia modernizar o implementar sistemas de on-boarding de clientes y originación de servicios que sean confiables, robustos y seguros.

Una plataforma de onboarding de clientes puede ayudar a las empresas financieras a automatizar el proceso de solicitud de cuentas, recopilar información del cliente y activar la cuenta, de forma segura, usando herramientas de #AI que le permita a una institución confirmar la identidad de su nuevo cliente mediante el escaneo facial, el reconocimiento de documentación y asegurar todo el proceso. De igual manera, una plataformas de originación de préstamos proporcionan un sistema integral para gestionar el proceso de originación de préstamos, desde la solicitud del cliente hasta la aprobación y el desembolso.

En estos casos, es de vital importancia automatizar tareas repetitivas, como la verificación de la identidad del cliente, la recopilación de información financiera, la evaluación del riesgo crediticio y la activación de la cuenta.

En conclusión, los bancos y fintechs están desempeñando un papel cada vez más importante en la inclusión financiera, especialmente en los segmentos de la base piramidal. Las fintechs revolucionaron el mercado financiero. Están utilizando la tecnología para ofrecer productos y servicios financieros innovadores y accesibles a las personas que tradicionalmente no han tenido acceso a ellos.

Las fintechs están tomando una serie de acciones para ayudar a los deciles más bajos a ingresar al sistema financiero, incluyendo:

  • Ofrecer productos y servicios financieros a precios asequibles.
  • Adaptar los productos y servicios a las necesidades de los clientes desatendidos.
  • Utilizar la tecnología para facilitar el acceso a los servicios financieros.

Estas acciones están ayudando a reducir la brecha financiera y permitir que las personas de todos los niveles de ingresos accedan a los beneficios del sistema financiero.

En particular, las fintechs ganaron mercado por la utilización de herramientas digitales para automatizar y simplificar los procesos de originación de préstamos y onboarding de clientes. Estas herramientas están ayudando a las empresas financieras a mejorar la eficiencia y la eficacia de sus procesos, y ofrecer una mejor experiencia al cliente.

Queda todavía pendiente seguir mejorando la educación y la asesoría financiera para las personas de los deciles más bajos. Esta educación y asesoría ayuda a las personas a tomar mejores decisiones financieras y evitar las estafas.

A medida que la tecnología continúe avanzando, es probable que todas las instituciones financieras, incluidas las fintechs, los bancos, las aseguradoras y las sofipos, desempeñen un papel aún más importante en la inclusión financiera.

Categories
54cuatro

Beneficios del outsourcing de las fábricas de datos

En el competitivo mundo empresarial de hoy, el manejo inteligente de los datos y la adopción de tecnologías avanzadas son elementos clave para el éxito y la toma de decisiones informadas. En este blog, exploraremos cómo el enfoque en data analytics, data management y la aplicación de inteligencia artificial y aprendizaje automático por parte de nuestros científicos de datos y analistas pueden potenciar tu empresa en cada etapa del ciclo de vida del desarrollo.

A través de la metodología ágil y la optimización de los cycle times, te brindaremos soluciones a la medida que impulsarán la eficiencia y el crecimiento de tu negocio.

Data Analytics y Data Management: Nuestros expertos en data analytics y data management te ayudarán a extraer información valiosa de tus datos y mantener un control seguro y efectivo sobre ellos. Con análisis profundos, podrás tomar decisiones fundamentadas, identificar tendencias y oportunidades, y optimizar tus operaciones para un crecimiento sostenible.

Inteligencia Artificial y Aprendizaje Automático: Nuestros científicos de datos aplican la inteligencia artificial y el aprendizaje automático para llevar tu negocio al siguiente nivel. Automatizando procesos, podrás optimizar recursos, mejorar la precisión de tus predicciones y brindar experiencias personalizadas a tus clientes, generando una ventaja competitiva en tu industria.

Metodología Ágil: Nuestra metodología ágil permite una adaptación rápida a las necesidades cambiantes del mercado. Te mantenemos al frente de la innovación tecnológica, entregando soluciones de desarrollo de software y data que se ajustan a tus objetivos y presupuesto, y asegurando una entrega oportuna y de calidad.

Optimización del Ciclo de Vida: Nuestro enfoque integral en el ciclo de vida del desarrollo garantiza que cada etapa sea optimizada para obtener resultados exitosos. Desde la concepción hasta la implementación, trabajamos contigo para identificar oportunidades de mejora y reducir los cycle times, permitiéndote obtener resultados tangibles más rápidamente.

En 54cuatro, estamos comprometidos en ser tu socio estratégico de negocios, brindándote soluciones de data y tecnología avanzada que te ayudarán a alcanzar tus metas empresariales. Nuestro equipo de expertos te acompañará en cada paso del camino, capacitándote con información valiosa y potenciando tu toma de decisiones.

¡Contáctanos hoy mismo y descubre cómo podemos optimizar tu negocio para el éxito!

Categories
54cuatro

Analogía de la gestión de datos como si fueran bienes raíces

Muchas veces es difícil explicar que es y cual es el valor de la gobernanza de datos. Es pero eso que con esta anología te queremos contar como funciona el data governance, explicado como si fueran bienes raíces.
Esperemos que te guste.

🔑 Activo de Datos: Los datos son valiosos y requieren una gestión adecuada, al igual que una propiedad que necesita ser cuidada y mantenida.

🏢 Propiedad (Producto) de Datos: En la gestión de datos, la propiedad se refiere a la responsabilidad sobre los datos, similar a la propiedad o arrendamiento de una propiedad en bienes raíces.

👤 Responsable de Datos: Así como un administrador de propiedades se encarga del mantenimiento y cuidado de una propiedad, en la gestión de datos existen responsables encargados de gestionar los activos de datos, como la calidad de los datos.

👥 Consumidores/Usuarios de Datos: Al igual que los inquilinos utilizan una propiedad para diversos propósitos, los datos son consumidos y utilizados por personas y procesos de negocios.

💰 Monetización de Datos: Al igual que una propiedad puede generar ingresos alquilándola o vendiéndola, la monetización de datos implica aprovechar los activos de datos para generar ganancias.

📊 Cuantificación del Valor: Tanto en la gestión de bienes raíces como en la gestión de datos, es importante estimar el valor asociado con los activos para tomar decisiones informadas.

🔒 Seguridad de Datos y Controles de Acceso: Al igual que se implementan medidas de seguridad en una propiedad para protegerla de robos o daños, la seguridad de datos se refiere a la protección de los activos de datos contra accesos no autorizados.

🏗️ Arquitectura de Datos: La arquitectura de datos se puede comparar con los planos de una propiedad, ya que define el diseño y la estructura de los sistemas de datos.

🌍 Dominios de Datos: Al igual que una ciudad se divide en vecindarios, los datos se pueden dividir en dominios según su temática, y cada dominio tiene sus propios atributos y requisitos.

📚 Políticas y Normas de Datos y Cumplimiento Regulatorio: Al igual que existen regulaciones que rigen el uso y desarrollo de propiedades, las políticas y normas de datos establecen las reglas para gestionar los datos en una organización, cumpliendo con las regulaciones aplicables.

🔍 Gestión de Metadatos: Los metadatos, que son datos sobre los datos, se pueden comparar con la información detallada sobre una propiedad, como su ubicación, tamaño y características.

✅ Calidad de Datos: Al igual que el estado y mantenimiento de una propiedad pueden afectar su valor, la calidad de datos se refiere a la idoneidad de los datos para su propósito, medida en términos de precisión, integridad y consistencia.

🔧 Remediación de Datos: Al igual que se realizan reparaciones y mejoras en una propiedad para mantener su valor y seguridad, la remediación de datos implica identificar y corregir problemas de calidad de datos.

📊 Uso de Datos: Al igual que se mide el uso de una propiedad para determinar su valor potencial, el seguimiento y la medición del uso de datos permite comprender cómo y por quién se utilizan los datos en una organización.

🔀 Integración de Datos: Al igual que las propiedades y vecindarios están conectados por carreteras y sistemas de transporte, la integración de datos implica conectar datos de diferentes dominios y fuentes para garantizar su uso conjunto.

Esta analogía entre bienes raíces y la gestión de datos ofrece una forma útil de comprender los diferentes aspectos de la gestión de datos y la gobernanza de datos. Ten en cuenta que este tema es mucho más complejo, pero esperamos que esta comparación sea útil.

#GestiónDeDatos #GobernanzaDeDatos #DataManagement #DataGovernance

Categories
54cuatro

Ergocidad y Machine Learning

Este post fue publicado originalmente por Gonzalo D’Angelo en Medium.

La ergodicidad es un concepto que describe cómo el tiempo puede reducir el impacto de la aleatoriedad en los resultados de un sistema. Por ejemplo: A largo plazo, aquellos individuos que se beneficiaron de la suerte eventualmente regresarán a un estado promedio, mientras que aquellos que sufrieron una mala suerte a corto plazo pueden recuperarse a medida que las habilidades y la estrategia se vuelven más importantes que la suerte.

¿Pero cómo funciona la ergocidad en la vida real?

Este concepto es importante en el análisis de series de tiempo. Si una serie de tiempo es ergódica, significa que sus propiedades estadísticas se mantienen constantes a lo largo del tiempo y se pueden estimar a partir de una muestra finita de los datos. Esto es importante porque permite hacer inferencias sobre la serie de tiempo y predecir su comportamiento futuro. En contraste, si una serie de tiempo no es ergódica, sus propiedades estadísticas pueden cambiar con el tiempo y las inferencias y predicciones pueden ser menos precisas. Por lo tanto, es importante evaluar la ergodicidad de una serie de tiempo antes de realizar cualquier análisis o predicción.

Un ejemplo de ergodicidad es el siguiente: supongamos que un inversor coloca su dinero en dos acciones diferentes. Una de ellas tiene una alta probabilidad de ganancias, pero también un alto riesgo de pérdidas, mientras que la otra tiene una probabilidad más baja de ganancias, pero también un riesgo más bajo de pérdidas. En un corto período de tiempo, el inversor podría tener suerte y obtener grandes ganancias en la acción de alto riesgo, mientras que la acción de bajo riesgo no tiene un rendimiento tan alto.

Sin embargo, si observamos el comportamiento de las dos acciones a largo plazo, la acción de alto riesgo probablemente mostrará una mayor variabilidad en su rendimiento, mientras que la acción de bajo riesgo será más estable. Por lo tanto, a largo plazo, es probable que el inversor que colocó su dinero en la acción de alto riesgo experimente pérdidas, mientras que el inversor que colocó su dinero en la acción de bajo riesgo obtenga ganancias más modestas pero consistentes. Este es un ejemplo de ergodicidad, en el que el tiempo elimina los efectos aleatorios de la suerte a corto plazo y muestra la verdadera calidad del rendimiento de las acciones a largo plazo.

La ergodicidad puede ser una propiedad importante para considerar al aplicar algoritmos de machine learning en una empresa financiera. En términos generales, la ergodicidad se refiere a la idea de que a largo plazo, el promedio de los resultados de una variable aleatoria tiende a converger a su valor esperado o a su estado estacionario. En el contexto de una empresa financiera, un ejemplo de aplicación de la ergodicidad en un algoritmo de machine learning podría ser en la predicción de precios de acciones o en la detección de fraudes financieros.

En la predicción de precios de acciones, el algoritmo de machine learning podría analizar datos históricos de precios y volúmenes de negociación para predecir los movimientos futuros del mercado. Sin embargo, la aleatoriedad inherente en los movimientos del mercado puede dificultar la precisión de estas predicciones. La ergodicidad puede ser importante aquí porque significa que, a largo plazo, el promedio de las fluctuaciones del mercado debería converger a su estado estacionario o a su valor esperado, lo que puede ayudar a mejorar la precisión de las predicciones.

En el caso de la detección de fraudes financieros, el algoritmo de machine learning podría analizar patrones en los datos de transacciones financieras para detectar anomalías que podrían indicar fraude. La ergodicidad podría ser importante aquí porque, en teoría, a largo plazo, las transacciones normales y las fraudulentas deberían tener un promedio similar, lo que podría ayudar al algoritmo a detectar patrones que indiquen un comportamiento anómalo.

¿Como un sistema ergódico ayuda a una empresa?

Las estadísticas que miden actividades basadas en habilidades tienden a ser persistentes, mientras que las que miden actividades aleatorias no lo son. Por lo tanto, una estadística útil es aquella que se mantiene estable a lo largo del tiempo y ayuda a tomar decisiones informadas.

En la mayoría de los casos, los éxitos y fracasos son una combinación de habilidad y suerte. Sin embargo, cuando no hay correlación clara entre las acciones y los resultados, se observa una reversión a la media.

En términos de empresas que utilizan datos para predecir el futuro, es importante destacar que los expertos con experiencia se basan en modelos predictivos, en lugar de solo en la experiencia pasada. Esto les permite tomar decisiones informadas y precisas en un entorno empresarial cada vez más complejo y competitivo.

Es importante que una empresa que da servicios de machine learning comprenda el concepto de ergodicidad, ya que esto puede afectar directamente los resultados de sus modelos y predicciones. La ergodicidad implica que el comportamiento de un sistema o proceso aleatorio puede ser representativo de su comportamiento a largo plazo. En el caso del machine learning, esto significa que los datos históricos pueden ser utilizados para entrenar y ajustar un modelo que pueda predecir comportamientos futuros.

Sin embargo, es importante tener en cuenta que la ergodicidad no siempre se cumple en todos los casos, especialmente en situaciones en las que los datos históricos pueden no ser representativos del futuro. En el caso de una empresa financiera, puede haber eventos inesperados, como una estacionalidad, una situación inesperada como Covid19, una crisis económica o un cambio en las políticas gubernamentales, que pueden afectar significativamente los comportamientos futuros del mercado.

Por lo tanto, una empresa que da servicios de machine learning debe tener en cuenta la ergodicidad al diseñar y entrenar modelos, pero también debe tener en cuenta otros factores externos que puedan afectar los resultados. Esto puede incluir la inclusión de datos de fuentes adicionales, fuentes externas y la realización de pruebas de sensibilidad para evaluar cómo los resultados pueden verse afectados por eventos inesperados.

Concluyendo: Un sistema ergódico en el aprendizaje automático también podría referirse a la capacidad del modelo para adaptarse y cambiar su comportamiento en función de nuevas muestras de datos, en lugar de estar limitado a un conjunto de datos fijo y predefinido.

La ergodicidad es una propiedad deseable en sistemas de machine learning, ya que permite que el modelo aprenda de manera efectiva y se adapte a nuevas situaciones y datos.

Categories
54cuatro

Caso de Éxito: Libertad Servicios Financieros

La empresa financiera Libertad Soluciones de Vida, con sede en México, ha digitalizado su operación a través de Microsoft #Dynamics 365 y #Synapse Analytics, lo que ha permitido a la compañía llegar a usuarios de todo el país, incluidos aquellos en el extranjero.

Además, los servicios de crédito que antes tardaban 48 horas ahora se pueden proporcionar en menos de 30 minutos.

La compañía inició su proceso de transformación digital en 2018 con el macroproyecto Libertad Digital, que abarca todas las iniciativas de innovación conceptual y tecnológica.

Libertad Servicios Financieros es una institución financiera líder en México que ofrece una amplia variedad de servicios financieros, como préstamos personales, tarjetas de crédito, seguros y más. La empresa se enfrentaba a desafíos en sus operaciones, ya que necesitaban mejorar la eficiencia de sus procesos y reducir los riesgos asociados con sus operaciones financieras.

Para abordar estos desafíos, Libertad se asoció con nosotros para que brindemos soluciones de datos y analítica de negocios. 54cuatro trabajó en colaboración con el equipo de Libertad, Microsoft y otros proveedores para implementar soluciones de datos en Azure, incluyendo Azure Synapse, lo que permitió a la empresa procesar grandes cantidades de datos de manera eficiente y en tiempo real.

Además, implementamos soluciones de machine learning basadas en modelos de propensión, que permitieron a Libertad identificar a los clientes más propensos a adquirir sus productos y servicios. T

ambién se implementaron soluciones de analítica de negocios, riesgos, transacciones y fraude, lo que permitió a la empresa identificar y mitigar riesgos y mejorar sus procesos operativos.

Gracias a la implementación de estas soluciones, se pudo mejorar significativamente la eficiencia de sus procesos y reducir los riesgos asociados con las operaciones financieras. El cliente pudo también identificar oportunidades de crecimiento y mejorar la experiencia del cliente, lo que resultó en un aumento en la satisfacción del cliente y en el rendimiento financiero de la empresa.

No solo agilizamos la operación, sino también los tiempos de respuesta. Antes, tardábamos hasta 48 horas en darle visibilidad de su crédito al cliente. Hoy, lo podemos hacer en menos de 30 minutos.

Ricardo Merino: Director General Adjunto de Negocio

Quieres leer el caso de éxito publicado en #Microsoft, click aquí.

 

Categories
54cuatro

Comparando plataformas de datos en la nube: Databricks vs Snowflake

La adopción de soluciones de datos en la nube ha estado en aumento en los últimos años y dos de las principales opciones son Databricks y Snowflake. Ambas ofrecen servicios en la nube, de hecho pueden ser instaladas tanto en AWS como en Azure. Pero cada una tiene sus propias fortalezas y debilidades. En este artículo, se comparan ambas plataformas en términos de su arquitectura, capacidad de procesamiento y herramientas de análisis.

Snowflake vs Databricks — Datagrom | Data Science Consulting

Ambas plataformas son muy eficientes en el procesamiento y análisis de datos a gran escala, pero tienen diferencias significativas en cuanto a su funcionalidad y enfoque. #Databricks se enfoca en el procesamiento de datos y el análisis de datos en tiempo real, mientras que #Snowflake se centra en la gestión de datos y el almacenamiento de datos en la nube. Ambas plataformas son muy utilizadas en la industria y son una buena opción para cualquier empresa que busque procesar y analizar grandes cantidades de datos.

In Snowflake vs. Databricks Feud, the Only Conclusion Is: DataOps Needs All  the Help It Can Get

Veamos algunos puntos particulares. Empecemos con:

Arquitectura

Databricks se basa en Apache Spark y tiene una arquitectura abierta y flexible que permite a los usuarios integrar diversas fuentes de datos y herramientas de análisis. También tiene integración nativa con Microsoft Azure y Amazon Web Services (AWS).

Snowflake utiliza un enfoque basado en la nube y se centra en el almacenamiento de datos. Tiene una arquitectura de tres capas y utiliza una base de datos columnar.

Capacidad de procesamiento

Databricks tiene la capacidad de procesar grandes volúmenes de datos y realizar tareas de procesamiento en paralelo en múltiples nodos. Además, su capacidad de procesamiento se puede escalar según sea necesario para manejar grandes cargas de trabajo.

Snowflake también puede procesar grandes cantidades de datos, pero se enfoca en la velocidad y la eficiencia. Además, su arquitectura basada en la nube permite a los usuarios escalar fácilmente el procesamiento según sea necesario.

Herramientas de análisis

Databricks tiene una variedad de herramientas de análisis, incluyendo librerías de ciencia de datos y herramientas de visualización. También tiene integración con herramientas de terceros, como Tableau y Power BI.

Snowflake se centra en el almacenamiento de datos y la consulta de datos. Tiene una interfaz de usuario sencilla que permite a los usuarios consultar los datos y crear informes.

Finalizando, nos llama mucho la atención que Snowflake y Databricks, dos empresas que inicialmente tenían objetivos muy diferentes, han estado compitiendo en un mercado cada vez más convergente. Snowflake se enfocó en equipos de BI mientras que Databricks se enfocó en equipos de ciencia de datos, pero ahora ambos están expandiéndose a los dominios del otro, creando una verdadera batalla por la “Plataforma de Datos en la Nube”. La propiedad de los datos es esencial en esta competencia, y ambas empresas comenzaron con sistemas de almacenamiento cerrados. Pero, para sorpresa de muchos, Databricks sorprendió a Snowflake al abrir partes de Delta Lake, lo que provocó que Snowflake siguiera el ejemplo adoptando Apache Iceberg. En respuesta, Databricks tomó medidas drásticas y donó todo Delta Lake a la Fundación Linux con el lanzamiento de Delta Lake 2.0, dejando en claro su compromiso con un estándar abierto para el almacenamiento de datos.

Ambas plataformas ofrecen soluciones de datos en la nube y tienen sus propias fortalezas y debilidades. Databricks es ideal para usuarios que requieren una plataforma de análisis de datos altamente personalizable, mientras que Snowflake es ideal para usuarios que necesitan una plataforma de almacenamiento de datos rápida y eficiente.

Alternativas a estas plataformas

Existen varias alternativas a Snowflake y Databricks en el mercado, dependiendo de las necesidades y requisitos de la empresa. Algunas de estas alternativas incluyen:

  • Almacenes de datos en la nube: otras opciones populares incluyen Amazon #Redshift, Google #BigQuery, Microsoft Azure #Synapse Analytics y #Oracle Autonomous Data Warehouse.
  • Plataformas de análisis unificado: hay varias opciones, como Google Cloud Dataproc, Apache Flink, Apache Beam y Apache Storm.
  • Plataformas de ciencia de datos: algunas opciones incluyen Google Cloud AI Platform, Microsoft Azure Machine Learning, IBM Watson Studio y Amazon SageMaker.

Cada una de estas opciones tiene sus propias ventajas y desventajas, y la elección dependerá de los requisitos específicos de la empresa. Es importante hacer una investigación exhaustiva y evaluar las diferentes opciones antes de tomar una decisión.

Si estás buscando alternativas a Snowflake y Databricks para la gestión de tus datos en la nube, te recomendamos considerar Redshift de #AWS y Synapse de #Azure. Ambas plataformas ofrecen soluciones de almacenamiento y procesamiento de datos escalables y seguras.

AWS se destaca por su proceso constante de innovación y la incorporación de nuevas funciones y aplicaciones a su ecosistema de datos. Con Redshift, los usuarios pueden almacenar y analizar grandes cantidades de datos utilizando herramientas de análisis de datos de código abierto, como #SQL y #Python. Además, Redshift es altamente escalable y puede manejar desde pequeñas cargas de trabajo hasta grandes conjuntos de datos.

Por otro lado, Synapse de Azure se distingue por su simplicidad y robustez. La plataforma ofrece una amplia gama de herramientas integradas para el procesamiento de datos, desde la ingestión hasta el análisis. Además, la adopción de tecnología de Azure es fácil y rápida, lo que permite a los usuarios obtener resultados inmediatos.

#BigQuery es una solución de almacenamiento y análisis de datos en la nube altamente escalable y eficiente que se ha vuelto muy popular entre los usuarios de #GCP. Ofrece una variedad de características avanzadas, como la capacidad de analizar datos en tiempo real y la integración con otras herramientas de Google, como #DataStudio y #TensorFlow.

Sin embargo, a nosotros no nos resulta efectiva la calidad de su soporte técnico. En comparación con AWS y Microsoft, el soporte proporcionado por Google aún tiene mucho por mejorar.

En resumen, tanto Redshift de AWS como Synapse de Azure son excelentes alternativas a considerar si estás buscando una plataforma de gestión de datos en la nube segura, escalable y eficiente.

Categories
54cuatro

¿El ETL va camino a desaparecer?

Tremendo título marketinero, ¿no?

Por lo general, cuando los gurús pronostican este tipo de cambios tan drásticos suelen equivocarse feo, quedó demostrado durante la pandemia y el término “nueva realidad”.

Los cambios pueden ser graduales, pero rara vez un cambio viene dado por la desaparición completa de algo.

La realidad, es que el #ETL viene presentando varios cambios. Quizás el más significativo es el concepto de #ELT que viene empujado por las arquitecturas de #DataLake.

Escribimos varias notas de ETL y ELT. Pero ahora vamos a hablar del “ETLess” o Zero ETL.

#ZeroETL es un enfoque que busca reducir o eliminar la necesidad de realizar una extracción, transformación y carga (ETL) de datos en un proceso de análisis de datos. O al menos la necesidad de hacerlo de forma manual.

Por ejemplo, #Databricks y #Snowflake vienen trabajando en simplificar los procesos de Extracción, Transformación y Carga. Tanto Snowflake como Databricks tienen soluciones que se enfocan en reducir la complejidad y la necesidad de ETL tradicional.

Snowflake tiene una arquitectura de nube nativa que permite cargar y consultar datos en tiempo real, lo que reduce la necesidad de procesos de transformación y limpieza de datos complejos. También tiene funciones de preparación de datos incorporadas que permiten transformaciones en el momento de la consulta, lo que a menudo elimina la necesidad de ETL previo.

Por otro lado, Databricks cuenta con herramientas como Delta Lake y la funcionalidad de transformación de datos en tiempo real de Spark Streaming, lo que permite trabajar con datos en su estado natural, sin tener que extraerlos, transformarlos y cargarlos en un almacén de datos.

AWS es otro de los grandes impulsores del concepto de Zero ETL. El avance de la #IA hace que muchos expertos pongan las actividades manuales en la mira de la automatización. Pero la realidad es que estamos lejos de tal simplificación. cognitive data

Lo cierto es que los pipelines de datos están confluyendo hacia una mejorar canalización y transporte de la información, haciendo que las necesidades de ETL disminuyan. La práctica de la extracción, que solía ser muy costosa, se está simplificando por medio de conectores prefabricados que permiten integrar miles de plataformas con muy poca configuración de por medio. La transformación es la que sigue siendo un verdadero problema. La transformación implica la limpieza, validación, normalización, agregación y enriquecimiento de los datos para asegurarse de que sean precisos, coherentes y relevantes para su uso previsto. Pero aún la calidad de los datos sigue siendo un verdadero dolor de cabeza.

Desde tiempo atrás a hoy, se han desarrollado técnicas y creado herramientas más avanzadas para mejorar la calidad de los datos. La aparición de herramientas de integración de datos permitió la automatización de muchas tareas de limpieza y transformación de datos, lo que redujo el riesgo de errores humanos y mejoró la eficiencia.

Además, se han creado estándares de calidad de datos y se han establecido mejores prácticas para asegurar la integridad y la precisión de los datos.

Las necesidades de mayor información y el camino de las organizaciones hacia el #DataDriven, hace que la implementación de procesos de calidad de datos sea una tarea crítica para muchas organizaciones que dependen de los datos para tomar decisiones importantes.

Lo bueno es que la inteligencia artificial y el aprendizaje automático están permitiendo nuevas técnicas para mejorar la calidad de los datos, como la identificación de patrones de datos inconsistentes o la corrección automática de errores comunes; pero nace un nuevo problema de calidad relacionado con los sesgos cognitivos.

Los sesgos de datos son errores sistemáticos en la recopilación, el análisis o la interpretación de los datos que pueden generar conclusiones inexactas o incompletas. Los sesgos de datos pueden ser el resultado de diferentes factores, como la falta de representatividad de la muestra, la mala calidad de los datos, la falta de diversidad en los datos, la selección sesgada de las variables o la falta de contexto.

Los sesgos de datos pueden tener consecuencias negativas, como la toma de decisiones incorrectas o injustas, la discriminación y la creación de estereotipos. Para evitar los sesgos de datos, es importante tener en cuenta la calidad de los datos, la diversidad de la muestra, la objetividad en la selección de las variables, la transparencia en la metodología y el contexto en el que se recopilaron los datos.

Los sesgos en la data pueden ser un problema serio en cualquier etapa del proceso ETL, ya que pueden llevar a conclusiones incorrectas o discriminación en la toma de decisiones. Para abordar los sesgos de la data, es importante comprender las fuentes de sesgo, incluyendo la selección de datos, la recopilación de datos, el preprocesamiento y la interpretación de los resultados.

Es importante tener en cuenta la necesidad de tener datos no sesgados en todo el proceso ETL para garantizar que los resultados sean precisos y justos. Esto puede implicar la selección cuidadosa de datos de fuentes diversas, la revisión rigurosa de los datos para identificar y abordar cualquier sesgo, y la aplicación de técnicas estadísticas para garantizar la calidad y la integridad de los datos. Además, es esencial que se realice una revisión constante y periódica de la calidad de datos para asegurarse de que los datos sigan siendo precisos y no sesgados a lo largo del tiempo.

De manera que… ¿El ETL va camino a desaparecer?working in power bi

De nuestra parte creemos que no, ni los procesos ETL, ni los ELT, ni ETL inverso, ni nada. Ni cerca están de desaparecer. Nacerán nuevas y mejores técnicas, pero hay que seguir invirtiendo, esforzándonos y mejorando todos los procesos de Extracción, Transformación y Carga; porque para ser Data Driven se necesitan datos limpios.

Van 5 consejos para mejorar tus procesos ETL:

  1. Antes de comenzar cualquier proceso ETL, es importante analizar la fuente de datos y su calidad para determinar si se necesita limpieza o transformación previa. Si la fuente de datos es limpia y consistente, el proceso de ETL será más rápido y eficiente.
  2. Al limitar la cantidad de datos que se procesan durante el proceso ETL, se puede mejorar significativamente el tiempo de ejecución. Esto se puede lograr a través de filtros, consultas selectivas y otras técnicas que permiten seleccionar solo los datos necesarios para el análisis.
  3. El uso de herramientas y tecnologías modernas puede mejorar significativamente la eficiencia de un proceso ETL. Por ejemplo, el uso de plataformas en la nube como AWS o Azure, o herramientas de automatización como Airflow, puede reducir el tiempo y los recursos necesarios para realizar un proceso ETL.
  4. La automatización del proceso ETL puede reducir significativamente el tiempo y los recursos necesarios para completar un proceso de carga. La automatización también puede reducir la posibilidad de errores humanos y mejorar la calidad de los datos.
  5. Es importante monitorear y ajustar el proceso ETL continuamente para mejorar su eficiencia. Esto puede incluir el ajuste de parámetros de configuración, la optimización de consultas y la adición de nuevos filtros para reducir la cantidad de datos procesados.
Categories
54cuatro

El Manifiesto de Ingeniería del Caos orientada a los Datos

Hemos tomado 5 principios de ingeniería del caos de este post de Toward Science aplicados a la gestión de datos.

El “#Chaos #Engineering” o “Ingeniería del Caos” en tecnología es una práctica que consiste en introducir de manera controlada y planificada ciertos niveles de caos en un sistema informático en producción para evaluar su resiliencia y capacidad de recuperación frente a situaciones inesperadas o fallos.

El objetivo del Chaos Engineering es identificar posibles puntos débiles en la arquitectura del sistema y mejorar la calidad del software. Para ello, se realizan pruebas de estrés en condiciones simuladas de fallo y se mide el impacto en el sistema para evaluar cómo este responde a situaciones adversas. De esta manera, se puede mejorar la capacidad de recuperación del sistema ante fallos reales y minimizar el impacto en los usuarios.

Las pruebas de #ChaosEngineering se realizan de forma controlada y planificada para minimizar los posibles impactos en la operativa del sistema en producción. Para ello, se utiliza una metodología basada en la observación, el aprendizaje y la mejora continua del sistema.

Los principios y las lecciones de la ingeniería del caos son un buen lugar para comenzar a definir los contornos de una disciplina de ingeniería del caos de datos. Nuestra primera ley combina dos de las más importantes.

Primera ley: tenga un sesgo para la producción, pero minimice el radio de explosión

Existe una máxima entre los ingenieros de site reliability que resultará cierta para todos los ingenieros de datos que hayan tenido el placer de que la misma consulta SQL arroje dos resultados diferentes en los entornos de producción y ensayo. Es decir, “Nada actúa como producción excepto por producción”.

A eso yo agregaría, “datos de producción también”. Los datos son demasiado creativos y fluidos para que los humanos los anticipen. Los datos sintéticos han recorrido un largo camino, y no me malinterpreten, pueden ser una pieza del rompecabezas, pero es poco probable que simulen casos clave.

Al igual que yo, la mera idea de introducir puntos de falla en los sistemas de producción probablemente le revuelva el estómago. Es aterrador Algunos ingenieros de datos se preguntan con razón: “¿Es esto necesario dentro de una pila de datos moderna donde tantas herramientas abstraen la infraestructura subyacente?”

Me temo que sí. Recuerde, como ilustran la anécdota inicial y los ligamentos rotos de J-Kidd, la elasticidad de la nube no es una panacea.

De hecho, es esa abstracción y opacidad, junto con los múltiples puntos de integración, lo que hace que sea tan importante realizar pruebas de estrés en una pila de datos moderna. Una base de datos local puede ser más limitante, pero los equipos de datos tienden a comprender sus umbrales, ya que los alcanzan con mayor frecuencia durante las operaciones diarias.

Dejemos atrás las objeciones filosóficas por el momento y sumerjámonos en lo práctico. Los datos son diferentes. Introducir datos falsos en un sistema no será útil porque la entrada cambia la salida. También se va a poner muy desordenado.

Ahí es donde entra en juego la segunda parte de la ley: minimizar el radio de explosión. Existe un espectro de caos y herramientas que se pueden utilizar:

  • En palabras solamente, “digamos que esto falló, ¿qué haríamos?”
  • Datos sintéticos en producción
  • Técnicas como diferencia de datos que le permiten probar fragmentos de código SQL en datos de producción
  • Las soluciones como LakeFS le permiten hacer esto a mayor escala mediante la creación de “ramas de caos” o instantáneas completas de su entorno de producción, donde puede usar datos de producción pero con un aislamiento total.
  • Hágalo en producción y practique sus habilidades de relleno. Después de todo, nada actúa como producción, sino producción.

Comenzar con escenarios menos caóticos es probablemente una buena idea y lo ayudará a comprender cómo minimizar el radio de explosión en la producción.

Profundizar en los incidentes de producción reales también es un excelente lugar para comenzar. ¿Todos realmente entienden lo que sucedió exactamente? Los incidentes de producción son experimentos de caos por los que ya pagó, así que asegúrese de aprovecharlos al máximo.

Mitigar el radio de explosión también puede incluir estrategias como la copia de seguridad de los sistemas aplicables o contar con una solución de monitoreo de calidad de datos u observabilidad de datos para ayudar con la detección y resolución de incidentes de datos.

Segunda Ley: Comprende que nunca es un momento perfecto (dentro de lo razonable)

Otro principio de ingeniería del caos se sostiene para observar y comprender el “comportamiento de estado estable”.

Hay sabiduría en este principio, pero también es importante comprender que el campo de la ingeniería de datos no está listo para medirse con el estándar de “5 9s” o 99,999 % de tiempo de actividad.

Los sistemas de datos están en constante cambio y existe una gama más amplia de “comportamiento de estado estable”. Habrá la tentación de retrasar la introducción del caos hasta que haya alcanzado el punto mítico de “preparación”. Bueno, no puede superar la arquitectura de los datos incorrectos y nadie está preparado para el caos.

El cliché de Silicon Valley de fallar rápido es aplicable aquí. O, parafraseando a Reid Hoffman , si no te avergüenzan los resultados de tu primer evento pre-mortem/simulacro de incendio/caos, lo presentaste demasiado tarde.

La introducción de incidentes de datos falsos mientras se trata de incidentes reales puede parecer una tontería, pero en última instancia, esto puede ayudarlo a salir adelante al comprender mejor dónde ha estado poniendo curitas en problemas más importantes que pueden necesitar ser refactorizados.

Tercera Ley: Formular hipótesis e identificar variables a nivel de sistema, código y datos

La #ingenieriadelcaos fomenta la formación de hipótesis sobre cómo reaccionarán los sistemas para comprender qué umbrales monitorear. También fomenta el aprovechamiento o la imitación de incidentes pasados ​​del mundo real o incidentes probables.

Profundizaremos en los detalles de esto en la siguiente sección, pero la modificación importante aquí es garantizar que abarquen el sistema, el código y los niveles de datos. Las variables en cada nivel pueden crear incidentes de datos, algunos ejemplos rápidos:

  • Sistema: no tenía los permisos correctos establecidos en su almacén de datos.
  • Código: Una mala setencia de left JOIN.
  • Datos : un tercero le envió columnas basura con un montón de NULLS.

Simular mayores niveles de tráfico y apagar los servidores afecta los sistemas de datos, y esas son pruebas importantes, pero no descuide algunas de las formas más únicas y divertidas en que los sistemas de datos pueden fallar.

Cuarta Ley: Todos en una habitación (o al menos llamada Zoom)

Esta ley se basa en la experiencia de mi colega, el ingeniero de confiabilidad del sitio y experto en caos Tim Tischler .

“La ingeniería del caos se trata tanto de personas como de sistemas. Evolucionan juntos y no se pueden separar. La mitad del valor de estos ejercicios proviene de poner a todos los ingenieros en una habitación y preguntar, ‘¿qué sucede si hacemos X o hacemos Y?’ Tiene la garantía de obtener respuestas diferentes. Una vez que simulas el evento y ves el resultado, ahora los mapas mentales de todos están alineados. Eso es increíblemente valioso”, dijo.

Además, la interdependencia de los sistemas de datos y las responsabilidades crea líneas borrosas de propiedad, incluso en los equipos mejor dirigidos. Las rupturas a menudo ocurren, y se pasan por alto, en esas superposiciones y brechas en la responsabilidad donde el ingeniero de datos, el ingeniero analítico y el analista de datos se señalan el uno al otro.

En muchas organizaciones, los ingenieros de productos que crean los datos y los ingenieros de datos que los gestionan están separados y aislados por estructuras de equipo. También suelen tener diferentes herramientas y modelos del mismo sistema y datos. Siéntase libre de atraer también a estos ingenieros de productos, especialmente cuando los datos se han generado a partir de sistemas construidos internamente.

Una buena gestión y clasificación de incidentes a menudo puede involucrar a varios equipos y tener a todos en una habitación puede hacer que el ejercicio sea más productivo.

También agregaré por experiencia personal que estos ejercicios pueden ser divertidos (de la misma manera extraña, poner todas tus fichas en rojo es divertido). Animo a los equipos de datos a que consideren un simulacro de incendio de ingeniería de datos del caos o un evento pre-mortem en el próximo lugar externo. Es un ejercicio de vinculación de equipo mucho más práctico que salir de una sala de escape.

Quinta Ley: Por el momento, absténgase de la automatización

Los programas de ingeniería del caos verdaderamente maduros como Simian Army de Netflix están automatizados e incluso no programados. Si bien esto puede crear una simulación más precisa, la realidad es que las herramientas automatizadas no existen actualmente para la ingeniería de datos. Si lo hicieran, no estoy seguro de si sería lo suficientemente valiente como para usarlos.

Hasta este punto, uno de los ingenieros de caos originales de Netflix ha descrito cómo no siempre usaron la automatización, ya que el caos podría crear más problemas de los que podrían solucionar (especialmente en colaboración con quienes ejecutan el sistema) en un período de tiempo razonable.

Dada la evolución actual de la confiabilidad de la ingeniería de datos y el mayor potencial para un radio de explosión no intencionalmente grande, recomendaría que los equipos de datos se inclinen más hacia eventos programados y cuidadosamente administrados.

Resumen

Para aplicar la ingeniería del caos en la gestión de datos, se pueden seguir algunos principios, como tener un sesgo para la producción y minimizar el radio de explosión. Es importante entender que los datos son diferentes y que introducir datos falsos en un sistema no será útil. Por eso, se pueden utilizar herramientas como la diferencia de datos o soluciones como LakeFS, que permiten crear ramas de caos o instantáneas completas del entorno de producción para realizar pruebas con datos reales.

También es importante comprender que nunca habrá un momento perfecto para realizar pruebas de ingeniería del caos y que es necesario tener en cuenta estrategias de mitigación del riesgo, como la copia de seguridad de los sistemas o el monitoreo de calidad de datos. Al profundizar en los incidentes de producción reales, se pueden obtener valiosas lecciones sobre cómo mejorar la resiliencia del sistema.

En resumen, la ingeniería del caos puede ser una herramienta útil para mejorar la calidad y resiliencia del software en la gestión de datos, siempre y cuando se realicen de manera planificada y controlada.