Categories
54cuatro

Usar Bases Relacionales para Analítica

Desafío planteado

El cliente nos indica que tiene 2 bases de datos, una Oracle 11g y otra MSSQL2016 donde se guarda informacion de dos sistemas corporativos de tipo BSS, y ademas junto con esa data necesitaban enriquecer la info con algunos archivos que reciben en formato CSV de algunos proveedores, y que para poder analizarlos ejecuta algunos procesos manuales, suben todo a una base de datos intermedia y desde ahí hacían tableros de BI.

Este proceso corría una vez por dia, involucraba la participación de una persona y no cumplía con los tiempos requeridos por el negocio.

Nuestro cliente quería evaluar cuidadosamente si nuestra propuesta de inteligencia empresarial hacia sentido para ellos, motivo por el cual propusimos hacer este desarrollo como PoC (prueba de concepto), sin involucrar el armado de un datawarehouse ya que contaban con uno on-premise y tampoco quería instalar servidores ni adquirir nuevas licencias, de manera que teníamos que desarrollar una solución consumiendo de servicios de Nube.

Solución Propuesta

Durante la charla propusimos hacer uso de servicios serverless en la nube, Funciones en #AWS o #Azure, donde un script se ejecute para extraer la info, procesarla y dejarla disponible para analizar. Una especie de #ETL #serverless.

Otra alternativa era armar una infraestructura de eventos con #Kafka o #NiFi. Pero como la solución tenia que ser bajo la premisa de no instalar equipamiento finalmente desistimos de esta opción.

El boceto cuando armamos la call de Preventa

Implementación

Lo primero que hicimos fue eliminar los procesos de ETL que corrían hoy con SSIS, y la base intermedia desde donde conectaban la herramienta de BI.

Posterior a eso, realizamos el desarrollo de código Python que se ejecuta sobre Azure Functions para tomar los CVS y Parquet de proveedores, extraer la información y llevarla a Data Lake Storage.

Otra parte corre en Azure Data Factory, un integrador de datos con conectores pre-compilados que nos servían para tomar la info desde las bases relacionales y llevar los datos de manera automatizada, simplificando mucho la extracción de la info y el movimiento hacia Azure Data Lake Storage donde almacenamos lo que llegaba. A eso le sumamos Azure #DataBricks donde corremos la preparación de los datos.

Databricks es una herramienta de Azure basada en #Apache #Spark que permite configurar de manera simple flujos de trabajo optimizados, dejando la data lista para que DBA, Data Scientist o incluso Analistas de Negocios, dispongan de la información para sus labores.

Finalmente toda la capa de visualización fue armada en PowerBI, desde donde concentrábamos reportes según el perfil del usuario visualizador.

Toda la solución lógicamente tiene componentes de seguridad, como Active Directory para la autenticación.

Entre el assessment, la planificación, y ejecución del proyecto fueron 5 semanas de trabajo donde obtuvimos como resultado un producto de analítica casi en tiempo real, con un costo de menos de 500 USD mensuales pero que generaba insights claros de negocios donde antes no existían.

Los resultados fueron excelentes porque dieron visibilidad de operaciones comerciales desconocidas. Esta buena recolección de resultados mostraron un ROI muy interesante que motivó avanzar en el proyecto a una Fase 2, que consistió en generar experimentos de Machine Learning organizados desde Databricks y que nos permitieron identificar los modelos con mejor rendimiento respecto al esquema de precios de la compañía.

La combinación de Azure Databricks y Azure Machine Learning nos permitieron generar un ciclo de vida de ML orientado a predecir compras, comportamientos de clientes, y generar una adaptación del esquema de pricing que significó un aumento en las ventas de la empresa.


[popup_anything id=”2076″]
Categories
54cuatro

Yiqi ERP powered by 54cuatro

¿Que es Yiqi?

Yiqi es un ERP web que permite sincronizar sus locales físicos, su tienda online y su stock, todo desde un solo lugar, en cualquier dispositivo y en todos los canales por medio de múltiples integraciones.

Integraciones YiQi

Por medio de la integración entre #Yiqi y #54cuatro, la plataforma se encuentra escalando sus funcionalidades y potencialidad a través de un roadmap tecnológico que va a permitir adoptar Infraestructura Serverless de #Azure con despliegues automatizados mediante Azure #DevOps, y un desarrollo de Analítica Avanzada por medio de Azure Machine Learning que sera un agregado de valor para los clientes de Yiqi en materia de predicción de ventas, stock y finanzas entre otras cosas.

Ventas, E-Commerce

  • Omnicanalidad para sus clientes. Enfoque la mirada en sus clientes, sin importar el canal de atención: puntos de venta, B2B, B2C, carritos, marketplaces
  • Reportes de ventas unificadas o con su propio segmento. Ranking de productos vendidos, vendedores, puntos de venta, canales de venta on line diferenciados
  • Configuración de la venta según su operación. Procesos de venta cortos, abiertos, con producción automática, combos, con picking lists
  • Sincronización de precios en todos los canales de venta. Establezca políticas de precios diferenciadas en diferentes segmentos de clientes

Stock

yiqi stock
Ejemplo de Stock en diferentes canales de venta
  • Sincronización de stock de todos sus canales de venta. Stock unificado o diferencial por canales de venta: B2B y B2C, sucursales, producción y compras, ventas on line. Alarmas de puntos de pedido.
  • Reportes de control de stocks. Compras e ingresos, reservas, reportes de salidas diarias, semanales y mensuales. Valorización del stock, CMV, CRM
  • Rentabilidad y valorización del stock. Conocer el costo de reposición de cada producto (CRM) y la valorización actual de tu stock.

Compras

Lista de artículos
Ejemplo de lista de precios de venta
  • Gestión escalonada de compra. Solicitud de compra, Orden de compra, Facturas y Remitos de compra enlazados y con controles de entrega y facturación
  • Pagos. Cheques, cheques de terceros, transferencias, etc, pagos parciales, cuentas de proveedores, resumen de movimientos
  • Reportes de compra. Ranking de compras, movimientos de proveedores
  • Importación. Procesos de despachos de importación, trazabilidad para el almacenaje y la venta
  • Sincronización de precios de Compra y Venta. Importá desde Excel la lista de precio de tus proveedores. Actualizá tus listas de venta automáticamente.

Comercial y CRM

yiqi
  • Seguimientos de Oportunidades de negocio. Es importante trabajar con el funnel de leads o el embudo de potenciales clientes
  • Acciones comerciales concretas. Armado de agenda de actividades para cada caso
  • Cotizaciones comerciales. Armado de cotizaciones, versionados automáticos, generación automática de Pedidos por cotizaciones aprobadas
  • Definición de estrategias de tarifas. Servicios, tarifas recurrentes, modificaciones automáticas y masivas de tarifas

RRHH

  • Legajos de empleados. Foto, CVs, entrega de elementos, licencias, sanciones, estudios médicos, capacitaciones
  • Liquidación de sueldos. Configuración de convenios y categorías, impresión de recibos, novedades, generación automática de transferencias a realizar
  • Búsqueda y selección de personal. Gestión de búsquedas, candidatos, entrevistas, puestos a cubrir
  • Gestión de altas y bajas. Proceso de aprobación de altas y bajas de personal

Finanzas y contabilidad

  • Gestión de cajas y bancos. Movimientos entre cuentas y cajas, conciliación automática de extractos bancarios, cheques, transferencias, pagos electrónicos
  • Reportes de finanzas. Cashflow, profit and loss
  • Impuestos. Liquidaciones automáticas, presentaciones a AFIP (CITI y otros), asientos contables automáticos
  • Contabilidad. Balance, asientos automáticos y manuales, libros contables, ejercicios, libro diario y diario resumido, mayores, sumas y saldos

Estos son algunos clientes que confían operaciones en YIQI:


[popup_anything id=”2522″]
Categories
54cuatro

Ejecutar las aplicaciones de negocio de manera más eficiente con SQL Server en Azure

Azure es una nube pública compuesta por más de 100 centros de datos interconectados en todo el mundo. Cada centro de datos ejecuta miles de servidores para procesamiento y almacenamiento administrados por #Microsoft. Las pequeñas y medianas empresas pueden trasladar las cargas de trabajo del servidor a Azure y beneficiarse de un mayor ahorro de costes, innovación y seguridad.

Instancia administrada de Azure SQL Database

El mejor destino para cargas de trabajo SQL

Beneficios de mover sus bases SQL a Azure

  • ROI inmejorable: ejecute cualquier parte de su negocio en la nube de manera más rentable que nunca: la instancia administrada de Azure SQL Database tiene el mejor ROI para SQL en la nube con un #ROI anticipado del 212% y un período de recuperación de 6 meses.
  • Seguridad y cumplimiento inigualables: con características de seguridad avanzadas y más de 90 certificaciones de cumplimiento, más que cualquier otra nube pública, Azure ayuda a proteger sus datos.
  • Modernización flexible: agregue innovación en la nube a su propio ritmo, ejecutando cargas de trabajo de SQL Server en las instalaciones y en la nube.
  • Innovación incomparable: elimine la administración y libere su tiempo para innovar con Azure SQL Database, un servicio de base de datos completamente administrado que nunca necesita ser parcheado o actualizado.

Es important mencionar que la plataforma de SQL en Azure, usa características familiares de #SQL Server. #Azure SQL Database y SQL Server se basan en el mismo código, por lo que su aplicación funciona de la misma manera, algo diferencial respecto a otros cloud vendors. Ademas puede mover las aplicaciones basadas en SQL Server a la nube con pocos o ningún cambio, y aprovechando ademas la integración con Azure Active Directory entre otros servicios de Azure que pueden funcionar con sus aplicaciones, redes y seguridad locales.

Beneficios económicos

Utilice los precios de pago por uso para pagar SQL en Azure mensualmente, sin gastos de capital iniciales. O con una licencia de suscripción de SQL Server, obtiene derechos para ejecutar cualquier versión de SQL Server local o en Azure.

Ademas…

Si compromete una suscripción de 1 o 3 años puede obtener más descuentos y costos predecibles que son fácilmente manejables desde las herramientas de administración de costos de Azure que permiten rastrear fácilmente las recomendaciones de uso y ahorro de costo.

Queres conocer mas? Escribinos para comenzar un inventario de sus cargas de trabajo y determinar el tamaño adecuado de Azure SQL Database o SQL Server en máquinas virtuales.


[popup_anything id=”2076″]

Categories
54cuatro

Patrones de Arquitectura para Microservicios

Acerca de los microservicios

Los #microservicios, son un estilo arquitectónico que estructura una aplicación como una colección de servicios. La arquitectura de microservicios permite la entrega rápida, frecuente y confiable de aplicaciones grandes y complejas.

Al trabajar con microservicios es común que las transacciones tarden mucho en ejecutarse debido a una gran distribución de aplicaciones como bases de datos y servicios que hacen más complejo mantener la consistencia de los datos (ACID). Recordemos que en un entorno de base de datos, ACID es un estándar de las base relacionales, que cumple estos requisitos: Atomicity — Atomicidad: Se ejecutan todas las instrucciones o ninguna, Consistency — Consistencia: Asegura que el estado final sea un estado válido y consistente. Isolation — Aislamiento: Sólo se puede acceder por un agente a la vez, a la información a ser modificada. Durability — Durabilidad: La información modificada tiene que quedar persistida en el repositorio.

Las transacciones locales de ACID tampoco ayudarán si la comunicación ocurre entre servicios separados con múltiples bases de datos.

Patrón de diseño SAGA

SAGA es un modelo de arquitectura publicado originalmente por el departamento de informática de la universidad de Princeton en 1987. Pueden descargar el paper original aquí.

De acuerdo a la descripción del modelo, SAGA es una secuencia de transacciones locales donde cada transacción actualiza los datos dentro de un solo servicio.

Hay un par de formas diferentes de implementar una transacción de saga, pero las dos más populares son:

  • Eventos / coreografía: cuando no hay coordinación central, cada servicio produce y escucha los eventos de otro servicio y decide si se debe tomar una acción o no.
  • Comando / Orquestación: cuando un servicio coordinador es responsable de centralizar la toma de decisiones y la secuencia de la lógica de negocios de la saga.

Vamos a usar estas imágenes de https://microservices.io para graficar cada modelo y que se entienda como funcionan:

Modelo EVENTOS
Modelo ORQUESTRADO

Ejemplo de una plataforma de stream de datos con Apache #Nifi

Beneficios de usar SAGA como patrón de arquitectura

Los eventos / coreografía es una forma natural de implementar el patrón de Saga, es simple, no requiere mucho esfuerzo para construir. Es un patrón muy atractivo para casos donde la transacción de su aplicación implica de 2 a 4 pasos. Este enfoque puede volverse confuso rápidamente si sigue agregando pasos adicionales en su transacción, ya que es difícil rastrear qué servicios escuchan qué eventos. Ademas las pruebas serían difíciles de implementar usando este diseño, para simular el comportamiento de la transacción, debe tener todos los servicios corriendo.

SAGA es un modelo muy util que permite que una aplicación mantenga la consistencia de datos en múltiples servicios sin usar transacciones distribuidas.

Prueba de Concepto

En #github, #Microsoft tiene una solución que simula un escenario de transferencia de dinero, donde se transfiere una cantidad entre cuentas bancarias a través de operaciones de crédito / débito y se genera un recibo de operación para el solicitante. Es una referencia de implementación del patrón #Saga a través de un enfoque de orquestación en una arquitectura sin servidor en #Azure. La solución aprovecha Azure #Functions para la implementación de los participantes de Saga, Azure Durable Functions para la implementación del Saga orchestrator, Azure Event Hubs como plataforma de transmisión de datos y Azure Cosmos DB como servicio de base de datos.

Repo disponible en: https://github.com/Azure-Samples/saga-orchestration-serverless

Architecture Overview

[popup_anything id=”2076″]
Categories
54cuatro

Resolver sesgos cognitivos con Data Science

Fotos sesgo libres de regalías | Pxfuel

Que es un sesgo?

Un #sesgo es cualquier cosa que pueda distorsionar nuestra capacidad de sacar conclusiones de manera imparcial y objetiva. Muchos de estos sesgos pueden ser intencionales o accidentales, pero de la forma que sea, son enemigos de las buenas decisiones.

¿Como tomamos decisiones?

Tampoco quiere decir que debemos delegar el 100% de la toma de decisiones en algoritmos, sino que debemos complementar experiencia con datos estadísticos para crear decisiones mas precisas.

En términos generales “sesgo” se deriva de la antigua palabra griega que describe una línea oblicua (es decir, una desviación de la horizontal). Investigadores han descubierto más de 200 sesgos diferentes en las últimas siete décadas y han estudiado cómo estos sesgos impactan áreas como las finanzas, la gestión y el juicio clínico, pero vamos a hacer foco en estos 20 sesgos publicados por Samantha Lee y Drake Baer en Business Insider que afectan nuestras decisiones y comparando como ello puede afectar un análisis de negocios:

Sesgo PublicadoNuestra apreciación
1. Sesgo de anclaje. Las personas confían demasiado en la primera información que escuchan.Esto puede generar un resultado interesante en la exploración temprana e ignorar otros resultados posibles o, lo que es peor, ignorar información contradictoria.
2. Heurística de disponibilidad. La gente sobreestima la importancia de la información que está disponible para ellos.Se confía con demasiada frecuencia solo en datos recopilados previamente y no se realizan experimentos controlados aleatorios propios. Incluso sin experimentos se puede confiar en los datos disponibles y no buscar fuentes adicionales..
3. Efecto Bandwagon. La probabilidad de que una persona adopte una creencia aumenta en función del número de personas que tienen esa creencia.Esto suele afectar por ejemplo si alguien ha oído hablar de un fenómeno particular (por ejemplo, el tono incorrecto de azul que hace que las personas abandonen un sitio web) y tratar de reproducirlo para el cliente de inmediato.
4. Sesgo del punto ciego. No reconocer sus propios sesgos cognitivos es un prejuicio en sí mismo.Es necesario trabajar para desarrollar un número suficiente de hipótesis de calidad.
5. Sesgo de apoyo a la elección. Cuando eliges algo, tiendes a sentirte positivo al respecto, incluso si esa elección tiene defectos.Esto lleva a “casarse” con un resultado inicial, una visualización o una técnica de aprendizaje automático.
6. Agrupación de ilusión. Esta es la tendencia a ver patrones en eventos aleatorios.El mundo de la ciencia de datos está repleto de correlaciones espurias.
7. Sesgo de confirmación. Tendemos a escuchar solo la información que confirma nuestras ideas preconcebidas.No hay espacio para nociones preconcebidas en el mundo de la ciencia de datos.
8. Sesgo de conservadurismo. Cuando las personas favorecen la evidencia previa sobre la nueva evidencia o información que ha surgido.Los datos a veces pueden revelar tendencias emergentes, sobre los clientes y sus hábitos, que son tan inesperados y contrarios al comportamiento pasado que son difíciles de aceptar.
9. Sesgo de información. La tendencia a buscar información cuando no afecta la acción.Se debe gastar tiempo solo cuando existe la posibilidad de generar un resultado procesable, donde procesable no incluye barreras culturales o financieras insuperables para la implementación.
10. Efecto de avestruz. La decisión de ignorar información peligrosa o negativa al “enterrar” la cabeza en la arena, como un avestruz.Poner todos los datos a disposición en los análisis evita esta tendencia a esconder informacion.
11. Sesgo de resultado. Juzgar una decisión basada en el resultado, en lugar de cómo exactamente se tomó la decisión en el momento.Los equipos de análisis no trabajan como justificación de las decisiones, solamente buscan nuevos complementos.
12. Sobreconfianza. Algunos de nosotros confiamos demasiado en nuestras habilidades, y esto nos lleva a asumir mayores riesgos en nuestra vida cotidiana.Solemos asumir que entendemos todo acerca de un área de experiencia, o herramientas que manejamos, haciendo que cometamos errores y no aprovechemos el potencial.
13. Efecto Placebo. Cuando simplemente crees que algo tendrá cierto efecto en ti, hace que tenga ese efecto.Por ejemplo, en una comparación A/B, debemos asegurarnos de que los usuarios no sepan cuál es la versión “antigua” y cuál es la “nueva”, o incluso, si los usuarios de la prueba son internos, qué opción es la preferida por su jefe.
14. Prejuicio a favor de la innovación. Cuando un proponente de una innovación tiende a sobrevalorar su utilidad y menospreciar sus limitaciones.Se debe garantizar que se pueda establecer un beneficio cuantitativo para tomar esa acción.
15. Frescura. La tendencia a ponderar la información más reciente con mayor intensidad que los datos anteriores.Cuando ocurre una anomalía, es necesario evaluar la relevancia y las causas.
16. Rasgo sobresaliente. Nuestra tendencia a enfocarnos en las características más fácilmente reconocibles de una persona o concepto.Es necesario centrarse en los resultados que tienen el mayor impacto cuantificable, no en los que tienen una narrativa cautivadora.
17. Percepción selectiva. Permitir que nuestras expectativas influyan en cómo percibimos el mundo.Si se descubren fallas en algún lugar de un sistema u organización, se debe aplicar ese rigor de manera uniforme en todo el sistema u organización.
18. Estereotipos. Esperar que un grupo o persona tenga ciertas cualidades sin tener información real sobre la persona.Si se realiza la segmentación de clientes, los estereotipos pueden ayudar a formular hipótesis (por ejemplo, los hogares con niños pueden ser más propensos a comprar juguetes), pero estas hipótesis deben probarse (por ejemplo, los datos pueden mostrar que los abuelos también compran muchos juguetes).
19. Sesgo de supervivencia. Un error que proviene de centrarse solo en los ejemplos que sobreviven, lo que nos hace juzgar mal una situación.Un análisis de abandono de los datos actuales puede perder las razones por las cuales los clientes se quedaron fuera hace un año cuando se realizó un cambio importante en el sitio web.
20. Sesgo de riesgo cero. Los sociólogos han descubierto que amamos la certeza, incluso si es contraproducente.Gravitar hacia un resultado procesable de alto impacto y bajo impacto sobre un resultado procesable de alto impacto y medio nivel de confianza. En cambio, el científico de datos debe trabajar para aumentar la confianza de este último o para refinar sus límites.

¿Como corregir sesgos por medio de la ciencia de datos?

En #DataScience, el sesgo es una desviación de la expectativa en los datos. Más fundamentalmente, el sesgo se refiere a un error en los datos.

head, brain, thoughts, human body, face, psychology, concentration ...

Los #modelos #predictivos solo “ven” el mundo a través de los datos utilizados para el entrenamiento. De hecho, ellos no conocen ninguna otra realidad. Cuando esos datos están sesgados, la precisión y fidelidad del modelo se ven comprometidas. Los modelos sesgados pueden limitar su credibilidad con las partes interesadas. Conocer estos riesgos le permite a un Científico de Datos eliminar mejor el sesgo. 

Los modelos resultantes de mayor calidad mejoran la adopción de análisis y aumenta el valor de la inversión en análisis.


[popup_anything id=”2076″]
Categories
54cuatro

MFT – Que es la Transferencia Segura de Archivos?

Moviendo datos

En la actualidad, las empresas necesitan soluciones de transferencia de archivos que les permita cumplir con sus necesidades de transferencia y encriptación de #datos, frecuentemente ante la necesidad de mover datos semi estructurados a entornos de análisis como un Lago de Datos en plataformas de #BigData o #Datalakes.
Dentro de todas las fuentes de datos, la recolección de informacion de socios de negocios, partners, empleados, proveedores, es vital para recabar mayores datos, pero también poder hacerlo con seguridad es de extrema importancia para mantener la integridad y seguridad de nuestros datos.

Ante el desafío planteado, aparece MFT, la Transferencia Segura de Archivos. Que es MFT?

 MFT, la Transferencia Segura de Archivos

Existen muchos softwares de #MFT como Connect Direct, #Oracle MFT CS, Control M y muchas mas. MFT es un proceso de gestión de la transferencia de archivos entre sistemas de forma gestionada y auditable, que abarca todos los aspectos de transferencias entrantes y salientes de archivos, usando niveles de seguridad y encriptación que aseguren la protección de los datos.

A diferencia soluciones tipicas FTP o SFTP, MFT incluye las siguientes funcionalidades:

  • Transferencia de Archivo de Servidor a Servidor
  • Transferencia de Archivo de Servidor a Persona o viceversa
  • Transferencia de Archivo de Persona a Persona
  • Controles de Seguridad
  • Transferencias automatizadas
  • Transferencias Batch
  • Soporte para protocolos seguros mediante certificados (SFTP, SCP, FTPS)
  • Auditoria y Reporteria
  • Reintentos de conexión y auto-resume (para evitar cortes en la trasmisión)

Las soluciones de MFT poseen registros de auditoria de importancia para el cumplimiento de certificaciones como PCI DSS y GDPR.

¿Por qué es importante?

 MFT, la Transferencia Segura de Archivos

Como mencionamos al principio de la nota, MFT permite proteger la información a través de método seguro y auditables lo que evita riesgos de seguridad asociados a la perdida de informacion por filtraciones, accesos no autorizados, fallas en la trasmisión, entre otros, pero también la Transferencia Segura de Archivos proporciona a las empresas grandes beneficios al mejorar la calidad de la transmisión de datos, reducir el tiempo y los errores asociados a las tareas manuales, cumplir con requerimientos de compliance y simplificar los procesos de ingesta de datos fundamentales para requerimientos DataOps.


[popup_anything id=”2076″]
Categories
54cuatro

Porque utilizar un Datalake?

Hace un tiempo compartimos un vídeo diferenciando un datalake de un datawarehouse. Pueden verlo aquí.

También venimos impulsando la adopción de #DataOps como metodología para trabajar nuestros datos. Pero en esta nota queremos hacer hincapié en los lagos de datos, tan de moda en estos momentos.

¿Porque Utilizar un Lago de datos?​

Un lago de datos es un depósito de almacenamiento que contiene datos “crudos”. Esto quiere decir que son almacenados en su formato nativo hasta que sean requeridos.

De esta manera, es de vital importancia resguardar estos datos dado que:

  • Todos los datos tienen un valor potencial.​
  • La acumulación de datos permite que se vayan enriqueciendo los reportes y análisis que se vayan a realizar en un futuro.​
  • Los datos se guardan sin un esquema definido, de manera que almacenarlos en su formato nativo no conlleva mucho esfuerzo.​
  • Los esquemas son establecidos y las transformaciones son hechas al momento de la consulta. ​
  • Las aplicaciones y los usuarios interpretan los datos cuando los consideran necesario.

El reto es combinar datos transaccionales almacenados en bases de datos relacionales con datos menos estructurados​, para poder servir los datos correctos a las personas correctas en el momento correcto en el formato correcto​

Zonas de un lago de datos​

Dentro de un datalake, existen zonas.

Zona Datos Crudos

  • Extracción de una copia del origen de datos en su formato nativo​
  • Inmutable al cambio​
  • Retención histórica de manera indefinida.​
  • Acceso a datos limitado a unas cuantas personas.​
  • A partir de ellos es posible regenerar cualquier proceso de transformación o analítico.​

Zona Temporal

  • Utilizada de manera selectiva​
  • Separación de “datos nuevos” de “datos sin procesar” para garantizar la coherencia de los datos​
  • Datos transitorios de baja latencia (Speed Layer)​
  • Validaciones de calidad de datos.​

Zona de Datos Maestros

  • Datos de Referencia​

Zona de Entrega de Usuario

  • Datos generados manualmente​

Zona de Preparación de Datos

  • Zona de preparación para un propósito o aplicación particular .​

Zona de estandarización de Datos Crudos

  • Datos crudos que varían en formato o esquema, como por ejemplo JSON que son estandarizados en columnas y renglones.

Zona de Archivo de datos

  • Archivo activo basado en políticas de tiempo asociadas a los datos, manteniéndolos disponibles para su consulta en caso de que se requiera.​

Sandbox Analítico

  • Lugar de trabajo para la exploración de datos, ciencia de datos y analítica.​

Zona de Entrega de Usuario

  • Datos generados manualmente​ (XLS, DOC, PDF, etc)

Zona de Preparación de Datos

  • Zona de preparación para un propósito o aplicación particular .​
  • Los procesos que lo ameriten pueden ser promovidos a la zona de datos curados.​

Zona de Datos Curados

  • Datos limpios y transformados, organizados para su optima entrega.​
  • Soporta esquemas de autoservicio.​
  • Seguridad estandarizada, gestión del cambio y gobierno.​

​En base al detalle explicado mas arriba, es necesario identificar las capas de un datalake, y realizar un modelo de gobernanza para que un lago de datos no se convierta en un pantano.

Capas del lago de datos

Governance? Que es?

El gobierno de datos refiere a la administración de los sistemas de datos, incluyendo, la organización, procesos, procedimientos, administración, responsabilidades, compliance y documentación de los sistemas de datos dentro de las organizaciones.

Existe una metodología llamada DAMA, una organización que gestiona un manual de buenas prácticas, el DMBoK (similar al PMBok del PMP Institute) que permite establecer lineamientos para el Data Governance, tal como se ve en la siguiente figura:

En una entrada posterior exploraremos en profundidad el tema governance, incluyendo herramientas para gestionarlo.

Pero continuando con el tema #Datalake….

Casos de Uso Datalake​

Experimentos de Ciencia de datos​

  • Soluciones aisladas para la preparación inicial de datos, experimentación y análisis.​
  • Migración de prueba de concepto a la solución operativa.​
  • Se integra con proyectos de código abierto como Hive, Pig, Spark, Storm, etc.​

Área de preparación de datos en el Data Warehouse​

  • Estrategia ETL.​
  • Reduce la necesidad de almacenamiento en una Plataforma relacional al utilizar el lago de datos como un área de preparación de datos.​
  • Uso practico de datos almacenados en lago de datos​
  • Aplicación de transformaciones de datos en el lago de datos.​

Esto son solo 2 casos de usos de utilidad, pero lógicamente existen múltiples usos validos para un datalake. Así también, existen un sinfín de arquitecturas posibles para el armado de un datalake, junto con una gran cantidad de herramientas, modelos y procesos disponibles. El armado de un lago de datos, requiere de un entendimiento previo del objetivo final, el conocimiento de la organización y posteriormente el planeamiento del despliegue.


En #54cuatro, somos una consultora especializada en la gestión de datos y partner #DataPlatform Gold de Microsoft. Vea nuestro perfil en Microsoft Partners.


[popup_anything id=”2076″]
Categories
54cuatro

INTELIGENCIA DE LOCALIZACIÓN

Algunas industrias necesitan trabajar con datos basados en análisis demográficos y espaciales, y eso significa no solo combinar datos para la visualización geoespacial, sino también enriquecerlos. Pero combinar estos datos no es tan simple como con otro tipo de informacion.

Que es la inteligencia en la localización?

Este tipo de informacion permite trabajar con ubicaciones de todo tipo para lograr objetivos de negocio. Afecta a distintas industrias, y requieren una manipulación particular según el caso. Vamos a poner algunos ejemplos:

#Telcos: requieren conocer sus instalaciones de cableado de fibra óptica y cobre, para ello utilizan herramientas GIS (geographic information system) que les permiten situar sus cableados en capas dentro del mapa. Este mapa permite tener un control de sus activos, y ademas esa informacion puede ser usada para detectar fallas en la red.

#Retail: la decisión acerca de la nueva ubicación de una nueva tienda puede ser determinada analizando el perfil demográfico para entender como las variables geográficas afectan las interacciones entre prospectos comerciales y negocios. Esta industria requiere de soluciones de #geomarketing.

#Energía: suelen visualizar los activos de petróleo y minería para realizar el seguimiento de la producción por área y por pozo, para lo cual requieren soluciones con mapas interactivos que sirvan la información requerida.

#Logística: buscan optimizar las rutas para lograr ahorros operativos y comerciales, a través de la ecuación de gastar menos combustible recorriendo menos kilómetros y mejorando la experiencia del cliente entregando en menores tiempos. Esta industria ademas de mapas en real time, suelen requerir soluciones de planificación inteligente con algoritmo de selección de rutas.

Como cumplir los requerimientos de estas industrias?

Existen 3 soluciones que #54cuatro puede proveer a través de la #analítica de soluciones basadas en ubicaciones.

ANALÍTICA ESPACIAL

La combinación y el mapeo de datos geoespaciales no es suficiente para una visión real. #54cuatro trabaja los grandes volúmenes de datos y los enriquece con análisis espaciales, agregando métricas como el tiempo de viaje, y otros datos que permiten optimizar el territorio.

ANÁLISIS DEMOGRÁFICO

54cuatro permite enriquecer sus datos combinando, asignando y agregando datos de fuentes externas, de líderes de la industria o de #OpenData, para nutrir los reportes con data demográfica, geográfica y social para el análisis de los clientes.

INTEGRACIÓN GIS

Su sistema de información geográfica o #GIS es tan bueno como los datos que usted maneje. 54cuatro con toda la gama completa de fuentes necesarias para el análisis espacial, desde archivos planos hasta #ESRI y #BigData, y mostrarlo directamente con la tecnología de #BI o visualización deseada.


[popup_anything id=”2076″]