Categories
54cuatro

Data Management – ¿Como llevar a cabo una estrategia de gestión exitosa?

El crecimiento de los datos se torna exponencial desde hace algunos años a hoy. Pero ese crecimiento no se ve reflejado en la utilidad que se hace de ellos, en gran medida, debido a que el porcentaje de crecimiento de datos corresponde a datos complejos de analizar.

Para simplificar esa complejidad y poder sacar valor de los datos, es que es tan importante una estrategia de Data Management.

¿Como llevar a cabo una estrategia adecuada?

Una estrategia de gestión de datos que generen valor para la organización, debe concentrarse en algunos puntos, a saber:

  1. Planificar que tipos de datos y pipelines va a requerir una plataforma analítica para resolver un caso de negocios
  2. Ser meticuloso en la gestión de la “calidad del dato”
  3. Crear un ciclo de vida
  4. Gestionar la ‘metadata’
  5. Cree políticas adecuadas
Data Governance: Development, Roles & Benefits | CC CDQ

Estos 5 puntos son los títulos iniciales que requiere administrar como puntapié inicial de su estrategia de datos.

Vamos a ampliar cada punto para entender por que.

Planificar que tipos de datos y pipelines va a requerir una plataforma analítica para resolver un caso de negocios

Los proyectos de analítica suelen surgir siguiendo la regla ‘explorar los datos para ver que se encuentra’.

Contrariamente a este proceso habitual, los proyectos de analítica deben nacer planteando el requisito de negocios, y desde allí conseguir los datos adecuados. Esto trae como finalidad evitar 2 cuestiones. Una es encontrarse con datos sucios, evitando los procesos complejos de limpieza que se deben realizar para que tengan usabilidad. Y dos, permite considerar que datos son útiles, de dónde provienen y cómo se almacenarán.

Ser meticuloso en la gestión de la “calidad del dato”

La calidad del dato es un aspecto cada dia mas importante. La calidad (#dataquality) tiene que ver con muchas cuestiones. Datos inconsistentes, datos repetidos, info desactualizada. Hay muchas cuestiones que pueden atentar contra la calidad, pero ademas de corregir el dato en si mismo, es importante detectar porque se genera informacion de baja calidad.

¿Hay áreas en las que se producen duplicaciones de la información?

La respuesta proactiva en este caso es detectar la fuente de las inconsistencia para así aplicar reglas que corrijan ciertos procesos o acciones. Con esto vamos a lograr un aumento de la calidad.

Crear un ciclo de vida

Como analizamos en el punto anterior, para optimizar la calidad debemos establecer reglas. Y un buen proceso de creación de reglas es considerar establecer un ciclo de vida de los datos, donde podamos definir:

  • Identificar el #linaje de los datos
  • Establecer procesos de creación y eliminación
  • Formas de almacenar
  • Políticas que definan como compartirá con terceros
  • Etc

El ciclo de vida es nuestra hoja de ruta para comprender la calidad y la utilidad de nuestros datos.

Gestionar la ‘metadata’

La #metadata es una gran amiga de los procesos de #gobernanza. Es un repositorio donde podemos contar con la informacion de como viaja la data, como se almacena, como se gestionan los cambios, etc.

Un buen plan de #governance cuenta con una gestión apropiada de los #metadatos, y principalmente se establece una identificación de los datos para asegurar la calidad, el compliance, la gestión y colaboración de nuestra info.

Cree políticas adecuadas

En el punto anterior mencionamos que la metadata permite crear una base de gestión que entre otras cosas, asegura el compliance.

Establecer políticas permite garantizar la importancia de nuestros datos, y conocer a detalle los impactos que tienen los mismos sobre la organización, gestionando el crecimiento del volumen de la informacion, su gestión y su usabilidad. Como mencionamos, el crecimiento del volumen de la info es exponencial y tener políticas adecuadas para la gestión de los mismos lo encontrara en gran forma para hacer frente a cambios, nuevas fuentes y nuevos requisitos de negocios que sean planteados.

Conclusión

Las empresas mas avanzadas en materia de gestión de datos están aplicando técnicas de #MachineLearning para su categorización y administración, pero aquellas con un poco mas de retraso, comenzar a establecer políticas de gestión de datos es un gran paso hacia la dirección de tener una estrategia integral de datos para la organización.

CONCLUSIÓN ANÁLISIS FODA – Escuela América E – 26

En este breve post quisimos mostrar aquellos hitos fundamentales en cuenta a #DataManagement, pero existen muchos mas condicionantes a tener en cuenta.

Para mayor informacion pueden contactarse con nosotros desde el siguiente formulario.


    Please prove you are human by selecting the key.

    Categories
    54cuatro

    API Driven – Open Banking

    ¿Que es API Driven?

    Los términos API driven y API First (dos formas de decir lo mismo), se han utilizado desde aproximadamente 2010, pero en los últimos dos años han entrado en un uso popular a medida que más y más equipos de desarrollo de software han reconocido los beneficios y ventajas que proporciona el desarrollo impulsado por API.

    How API led Strategy can help drive Smart Building Sustainability - Incepta  Solutions

    A través de una estrategia de API Management se genera una estrategia para conectar aplicaciones con canales externos y socios comerciales. Su planteamiento está hecho para agrupar las integraciones en 3 grupos: interno, con socios comerciales y con público en general. Su enfoque es la agilidad entre los programadores de API y los consumidores de API.

    Objetivos de las API en la industria financiera

    Las empresas se basan cada vez más en datos, las decisiones son tomadas apalancadas por el uso de la informacion y ya es sabido que la información es el principal activo de las organizaciones. El esquema de desarrollo API driven garantiza el rápido desarrollo de aplicaciones propias e integraciones contra servicios de terceros, impulsando la innovación, la transformación e integración con ecosistemas internos y externos.

    Acerca de Open Banking

    El concepto de banca abierta es un estandard en la industria de servicios financieros en países con regulaciones de Open Banking. El concepto básicamente refiere a la capacidad de una empresa para exponer sus servicios al mundo para que los socios e incluso otras entidades financieras (competidores) puedan utilizar estos servicios para aportar valor a sus clientes finales gracias a la evolución tecnológica de las APIs abiertas.

    Act. Vídeo] Webinar Actions for Industry: open banking - IEEE Sección España

    En este contexto, las API no son un concepto técnico, sino que son un verdadero producto comercial, es la cara de la empresa hacia el mundo exterior; la herramienta que desarrolla nuevos negocios, impulsa la innovación y posibilita un ecosistema basado en la colaboración que están generando un nuevo modelo de ‘Economía basada en API’ que permiten conectar productos y servicios, tanto internos como externos, para crear un mayor valor para los clientes finales.

    El desarrollo de API debe ser impulsado con una mirada tecnológica y cultural, dado que deben ser creadas para favorecer la colaboración entre entidades internas y externas, deben ser fácilmente accesibles para una audiencia de usuarios lo más amplia posible; deben estar bien documentados; deben garantizar el cumplimiento de regulaciones y de los estándares de seguridad corporativos; y deben ser rápidos y fáciles de actualizar.

    Propuesta de valor de 54cuatro

    54cuatro propone la creación de un esquema-API que permita la exhibición de desarrollos propios y de terceros. Algunos de los beneficios que se persiguen con esta iniciativa son:

    • Implementar el framework de Arquitectura para Microservicios.
    • Implementar el marco para la gestión adecuada de APIS.
    • Realizar el desarrollo de microservicios y exposición de APIs.
    • Gestionar el ciclo de vida de los microservicios, desde su concepción e incluyendo las etapas de desarrollo, calidad y producción, de forma fácil, eficiente, en tiempo real y segura.
    • Gestionar la creación de productos, planes de consumo y seguridad API.
    • Gobernar la solución de microservicios.
    • Gobernar la solución de API.
    • Trabajar a través de un modelo de fábrica, que permite crear e implementar microservicios y API.

    Para la adopción gubernamental de integraciones de nueva generación: el programa consta de 3 pilares:

    • Marco de gobernanza para APIS y microservicios: contiene las actividades que regirán los procesos y la gobernanza de los microservicios y las API. También contendrá los procedimientos asociados con la Integración Continua y la Entrega Continua.
    • Marco de Arquitectura: Definición de la arquitectura referencial para microservicios y API.
    • Marco de desarrollo para APIs y microservicios: Contiene las actividades que se enfocarán en el desarrollo de servicios, así como taxonomías, lineamientos y mejores prácticas.

    54cuatro en medios

    Entrevista en Canal EnCinco
    Webcast de JirandoLaRueda

    ¿Quieres más información?


    [popup_anything id=”2522″]
    Categories
    54cuatro

    ¿Que es Hadoop como Servicio?

    Hadoop es un proyecto Open Source de la fundación Apache, y que se fue transformando en sinónimo de Big Data.

    La verdad acerca de Hadoop

    Pero la administración de los clusters, sumado a los grandes costos asociados a hardware y licenciamiento, fueron potenciando el concepto de HadoopAsAService (#HDaaS) como una plataforma lista para usar en soluciones de #BigData basadas en #Hadoop.

    Los principales proveedores de servicios Hadoop fueron Cloudera y Hortonworks, hoy unificados bajo una misma empresa. Actualmente los proveedores de nube son algunos proveedores de servicios desafiantes, como Amazon Web Service con EMR, Microsoft con HDInsights sobre Azure o IBM con BigInsight; y que permiten a los usuarios crear cluster según sus necesidades de una manera muy simple, autoadministrable y con costos muy convenientes que permiten lograr un rápido TCO.

    Diferencias entre un ambiente on-premise contra uno Cloud

    On Premise vs Cloud | EBC Group

    Como mencionamos, mantener Hadoop on-premise conlleva la gestión de la infraestructura, la performance de Hadoop, la configuración, el aprovisionamiento y la disponibilidad. Todas estas tareas son difíciles y costosas de mantener. Respecto a Hadoop en la nube, existen grandes ventajas que están llevando a las empresas a migrar sus cargas de trabajo, entre estos beneficios, podemos enumerar:

    • Facilidad de implementación al generarse ambientes con muy pocos clicks.
    • Simplifica la administración al permitir a los usuarios redimensionar, agregar o quitar servidores según se necesite.
    • Mayor simpleza en las actualizaciones de versiones.

    Estos beneficios dan como resultado una marcada reducción en el costo de la innovación, y recordemos que en el mundo de los datos, este beneficio es significativo en cuanto al aporte de valor que los datos generar sobre las utilidades de las compañías.

    Optimización de Costos

    En entornos de Big Data, un científico de datos pasa la mayor parte del tiempo dedicado a la preparación de datos, a través de herramientas como Pig o Hive y otras herramientas destinadas a ciencia de datos, de manera que la optimización de las operaciones de cómputo sin muchas demoras para implementar clústeres de Hadoop, cargar datos y procesar los grandes volúmenes de datos dan como resultado una mayor rentabilidad en el tiempo de los científicos (que por cierto no son nada baratos) conllevando a un mejor ROI proveniente de los análisis efectuados por ellos.

    Look After Your IT Assets for Cost Reduction & Estate Optimization | Ivanti

    En cuanto a la operación existen ahorros significativos respecto a los gastos de mantenimiento, dado que los entornos HDaaS garantizan una plataforma Hadoop disponible, con un nivel de parcheado up2date, con escalado automático, lo que reduce los costos de mantenimiento al delegar el mantenimiento en el proveedor de nube seleccionado. Adicionalmente, los grandes vendors cloud, brindan excelentes herramientas de monitoreo que permiten un exhausto control de disponibilidad y performance sobre la plataforma donde estamos operando.

    Beneficios adicionales

    Vale destacar que nuestra plataforma por si sola no va a generar buenos resultados. Necesitamos de todo un ecosistema de herramientas para la integración y procesamiento de datos. Las plataformas de nube tienen completamente resuelto ese tema al brindar soluciones Hadoop con sus propios productos basados en Hive, Pig, MapReduce, Presto, Oozie, Spark y Sqoop. Además ofrecen herramientas tipo conectores para la integración de datos y la creación de pipelines #dataops que garantizan un flujo automatizado y simplificado para todo el ciclo de vida de la información. En el caso de Azure, existen herramientas como DataFactory, Synapse y Databricks que son una navaja suiza para plataformas de Big Data, se integran de forma nativa, muy simple de implementar y mantener.

    Conclusión

    Es posible que las empresas aún necesiten tiempo para reemplazar las inversiones que hicieron en sus plataformas de datos existentes, pero sin dudas que el crecimiento del mercado de Hadoop-as-a-service obligará a las organizaciones a considerar las migraciones hacia la nube.


      Please prove you are human by selecting the star.

      Categories
      54cuatro

      Transitando la adopción de arquitecturas serverless

      La tecnología serverless fue la que mayor crecimiento expone desde el 2018 hacia hoy. #AWS y luego #Azure fueron dos grandes promotores de la tecnología #serverless. Al dia de hoy existen múltiples alternativas, incluso para correr serverless sobre on-premise.

      ¿De dónde viene la tecnología sin servidor?

      En primer lugar, tenemos que hablar de Virtualizacion. La virtualización de servidores fue el paso inicial, que se basaba en correr múltiples servidores en un mismo hipervisor. Con el avance de la nube publica, las empresas utilizaron #IaaS (infraestructura como servicio), que básicamente es arrendar servidores y mover la carga de la infraestructura a la nube, pero los equipos aún tenían que lidiar con la configuración del servidor. Mas tarde apareció en escena PaaS (Plataforma como servicio). Los proveedores de #PaaS ofrecían una pila de aplicaciones más completa, como sistemas operativos y bases de datos para ejecutarse en la nube y ser administrados por el proveedor. Pero eso no fue suficiente. Luego surgió la tendencia de crear contenedores, una tendencia que sigue en alza, pero que significa de todas formas llevar a cabo configuraciones.

      #Serverless o #FaaS (función como servicio) representa un nuevo enfoque para el desarrollo de aplicaciones. En pocas palabras, FaaS es una forma de computación sin servidor que utiliza una infraestructura completamente administrada por un proveedor para cargar funciones y ejecutarlas mediante “pago por solicitud”, y logrando que los desarrolladores y equipos de operaciones se abstraigan totalmente de las instalaciones de sistemas operativos, servidores de aplicaciones, librerías, etc.

      Arquitectura Serverless

      La arquitectura “sin servidor” aplica a una capa de servicios, por tanto, los diseños de arquitectura deben contemplar las capas de datos e integración como parte de la misma. En líneas generales, las capas de presentación (web, mobile) y las de aplicaciones son las mas factibles de llevar a modelos serverless, con los siguientes beneficios:

      Menores costos y escalabilidad. En comparación con el enfoque tradicional, reduce los costos de operaciones y mantenimiento del servidor. En comparación con otros tipos de computación en la nube, la mayoría de los proveedores de FaaS trabajan con el modelo de precios de pago por solicitud. Esto significa que solo paga por el tiempo que se invocó una función y por la cantidad de invocaciones.

      Capacity planning. Puede asignar una cierta cantidad de memoria y CPU para una función, y escalarla según sea necesario hacia arriba y hacia abajo. Incluso apagarse apagarse cuando no sea necesaria.

      Desarrollo e implementación más rápidos. En lugar de escribir una estructura monolítica, FaaS ofrece una alternativa más flexible. Los desarrolladores pueden escribir código para un conjunto de funciones, en lugar de toda la aplicación monolítica, y cargar bits de código en el servidor. Eso hace que toda la estructura sea fácil de corregir, actualizar y agregar nuevas funciones.

      Proveedores de arquitectura serverless

      #AWS es quien introdujo la tecnología con mayor fuerza. #Lambda se convirtió en sinónimo de serverless, manteniendo la posición de producto líder en el mercado con la más amplia gama de servicios disponibles. #Azure Functions fue el siguiente oferente de esta tecnología en la nube, ofreciendo un conjunto de servicios similar a Amazon pero con un enfoque orientado hacia familia de lenguajes y herramientas de #Microsoft.

      Luego #Google en #GCP, #IBM, #Oracle, #Huawei lograron implementar soluciones serverless en sus nubes. Todos los proveedores mencionados ofrecen servicios similares, suficientes para lanzar una aplicación en una infraestructura administrada.

      En cuanto a la compatibilidad de lenguajes, Azure y Lambda admiten más idiomas que otros proveedores, y en cuanto a performance, no existe una diferencia crítica entre el rendimiento de las FaaS de cada provider.

      Como monitorear servicios sin-servidor

      El monitoreo es necesario para controlar las aplicaciones que corran en formato serverless, teniendo en cuenta ademas que toda la infraestructura es administrada por un proveedor. Entonces, para ver qué sucede exactamente con su aplicación y aplicar métricas, cada servicio tiene que ofrecer herramientas de monitoreo / registro. Esto le permite una descripción general de los recursos asignados y utilizados, detectar errores, monitorear registros, etc. Un factor fundamental a monitorear tiene que ver con la concurrencia, entendiendo por concurrencia a la ejecución paralela de diferentes funciones en un período de tiempo determinado, esto permite determinar la tasa simultaneidad que tolera cada aplicación, y que viene determinada por configuraciones a realizar en el proveedor del servicio FaaS.

      ¿Puedo tener Serverless en mi datacenter?

      Si. Por ejemplo Kubernetes ademas de funcionar como herramienta para automatizar la implementación, la administración y el escalado de aplicaciones en contenedores, tiene un marco nativo sin servidor para la implementación de código llamado Kubeless.

      Apache OpenWhisk es otra plataforma de código abierto que ejecuta funciones, pero administra la infraestructura, los servidores y el escalado mediante contenedores Docker. Tambien existe una herramienta open source llamada Fn project. Es una plataforma sin servidor de código abierto que se puede ejecutar en cualquier lugar, en la nube o en on premise.

      En cuanto a herramientas comerciales, #RedHat posee #Openshift Serverless, una herramienta serverless de nivel empresarial que brinda portabilidad y uniformidad a todos los entornos híbridos y multicloud basada en Knative.

      Conclusión

      La tecnología Serverless permite acceder a una forma de trabajar, con mayor foco en el desarrollo, delegando la administración de la infraestructura a un tercero.

      ¿Ya habías oído de Serverless? ¿Tu empresa se encuentra en proceso de adopción?

        Please prove you are human by selecting the star.

        Categories
        54cuatro

        Porque fallan los proyectos de Inteligencia Artificial

        Una tecnología disruptiva o una innovación disruptiva es una innovación que ayuda a crear un nuevo mercado y una nueva red de valor y, finalmente, continúa alterando una red de mercado y valor existente.

        ¿Porque fallan los proyectos?

        En la actualidad 1 de cada 10 proyectos relacionados con #IA logra tener éxito. El éxito no esta medido por el cumplimiento de las implementaciones, sino por el valor que se logra de cara al negocio.

        Las fallas en este tipo de proyectos (en nuestra experiencia) vienen dados por 2 puntos:

        1. Falta de colaboración entre las áreas para lograr una solución que aporta valor.
        2. No tener los datos adecuados.

        ¿Cómo mitigar los riesgos?

        En #54cuatro tenemos una #metodología que permite a nuestros clientes ir logrando un nivel de madurez que asegure el éxito de los proyectos de #InteligenciaArtificial.

        Esa metodología denominada #Metolodogia54, busca lograr convertir a los clientes hacia empresas #DataDriven, afectando sus capacidades en cuanto a factores Culturales, Procesos y Tecnología en pos de asegurar la creación de sinergias entre los grupos de trabajo y obtener (o crear) los datos adecuados.

        Tendencias en boga como #MLOPS son buenas alternativas para optimizar proyectos de #MachineLearning y aproximarse con mayor seguridad al éxito buscado, pero además es importante que todas las personas de la organización estén comprometidas a buscar el éxito, dado que los proyectos IA son 100% colaborativos es fundamental considerar los datos que se tienen disponibles y los conocimientos que se pueden obtener de ellos pero es aun mas necesario considerar el nivel de apoyo de la gerencia u organización en general y finalmente establecer expectativas realistas en torno a lo que la #IA ayudará a resolver.

        Medición de resultados

        Con las expectativas marcadas como hito a cumplir, es necesario generar una adecuada medición de resultados. El personal técnico suele medir el resultado de un modelo de datos por como “performa” ese modelo (Precision, Recall, F1, etc). Ese es un grave error que genera desconfianza en lo que se esta realizando. En su lugar, es preferible establecer hitos de éxito medibles en los términos más importantes para la empresa, como eficiencia operativa, aumento de ventas o de ahorro de costos. 

        Algunas otras veces, se espera un nivel mínimo de resultados de cada modelo, sin embargo es bueno participar a gente de áreas de negocio mientras se realizan los desarrollos para que puedan probar y comparar el rendimiento, realizar sugerencias y complementar el modelo con las fortalezas (y debilidades) de los expertos ‘humanos’.

        En modelos predictivos, crear un ciclo de retroalimentación permite mejorar el reentrenamiento para que su modelo pueda incorporar rápidamente nuevos puntos de datos y dar como resultado un aumento y mejora de las predicciones futuras.

        Conclusión

        Los proyectos basados en tecnología disruptiva generan grandes expectativas pero para poder cumplir con lo que se espera, es necesario comprometer a la organización en pos de lograr buenas fuentes de datos y poder trabajar con los científicos de datos a medida que se generan soluciones de negocio, retroalimentando los desarrollos con experiencia de las personas.


          Please prove you are human by selecting the heart.

          Categories
          54cuatro

          Analítica de Videos mejoran la movilidad en las ciudades

          Intro to dashboards for Power BI designers - Power BI | Microsoft Docs

          Cuando se habla de analítica lo primero que suele venir a la cabeza es un tablero o reporte.

          Pero para dar un poco de claridad, podemos destacar que es posible realizar análisis de imágenes, textos, audios y videos, entre otras cosas; y si bien algunos de esos datos pueden terminar en un tablero como el del ejemplo, la realidad que en muchos casos tienen un valor bien definido y que apenas estamos descubriendo.

          Las #CiudadesInteligentes son usuarios de este tipo de analítica, permitiendo optimizar flujos de trafico automotor, controles viales y seguridad urbana; pero aun queda mucho por hacer.

          ¿Qué soluciones existen en la actualidad?

          La planificación urbana requiere lograr que tráfico fluya y ayudar a las personas a llegar a donde necesitan estar, de una manera más rápida e inteligente. Con este fin, las tecnologías y soluciones disponibles permiten optimizar las rutas #logísticas mediante el uso de #mapas que se actualizan en tiempo real, gestión del tráfico por medio de cámaras de video vigilancia que permiten identificar atascos o accidentes, peajes de flujo libre que cobran mediante la identificación de la patente del auto, identificación de autos robados o control de excesos de velocidad.

          ¿Hacia donde avanzan estas soluciones?

          El análisis de video inteligente permite identificar distintas situaciones, como la acumulación de tráfico en las intersecciones, contar la cantidad de vehículos que cruzan una intersección, detectar su velocidad, contar la cantidad de vehículos, todo esto en tiempo real. Todos esos datos van a permitir ser recolectados por sistemas de gestión de trafico al punto de poder cambiar los semáforos a rojo o verde dependiendo de horarios picos. En los próximos meses veremos una optimización inteligente de las señales de tráfico garantizando un flujo de tráfico más eficaz a partir de patrones horarios y/o estacionales.

          IoT smart city video security solution offers 'security without surveillance '

          ¿Qué falta desarrollar?

          Las grandes urbes deben generar sistemas de comunicación en tiempo real para que la informacion recolectada pueda ser trasmitida a los conductores, por ejemplo por medio de guías de trafico visibles en autopistas, avenidas y arterias transitadas. La comunicación inteligente sobre advertencias y actualizaciones ayuda a todos a ahorrar tiempo, evitar frustraciones y simplificar la movilidad diaria.

          Conclusión

          Como mencionamos, la analítica es mucho mas que un tablero. Para las Ciudades Inteligentes las imágenes y videos son una gran fuente de #BigData y una potente forma de detectar patrones y actuar en consecuencia.

          Los datos nos rodean, y podemos recolectarlos por medio de sensores, imágenes, videos, y con esa informacion crear plataformas de informacion que mejoren el dia a dia de los residentes y turistas.

          ¿Te imaginas recibir avisos de lugares de estacionamiento disponibles previo a llegar a un determinado lugar?

          Visita nuestra pagina de con nuestros servicios orientados a los Ciudadanos Digitales.


          [popup_anything id=”2076″]
          Categories
          54cuatro

          ETL inverso – La integración como motor del cambio

          Dentro de lo que llamamos Integración, existen distintos conceptos, distintas arquitecturas e incluso distintas herramientas a considerar.

          Elegir una plataforma de integración que permita capturar la data necesaria para ser utilizada es de vital importancia para lograr usabilidad y obtener valor de nuestra información.

          Hemos escrito muchas notas en nuestro blog sobre arquitecturas de integración de datos basadas en eventos (Event Stream). En este caso vamos a analizar como el caso de ETL inverso como flujo de eventos es igualmente importante. En los últimos años, con el crecimiento expansivo de la #analítica, han surgido cientas de herramientas de #Integración de Datos, principalmente impulsadas por el #marketing digital.

          Herramientas como Fivetran, Hightouch o la #OpenSource Grouparoo permiten crear un pipeline muy simple, de forma declarativa, de donde extraer informacion de varias fuentes y transportarla hacia un destino que permita utilizar esa data para análisis.

          Diferencias en los métodos

          Los procesos de ETL tradicionales fueron evolucionando. En la actualidad existen múltiples formas de Extraccion. De las mencionadas anteriormente Hightouch permite sincronizar datos con cualquier herramienta SaaS utilizando SQL, donde la sincronización de la tabla se puede modelar como un flujo de eventos. El modelo seria así:

          El resto utilizan Conectores prearmados, adecuándose a distintos métodos como conexiones a #API o por medio de SDK, como el caso de Fivetran:

          Como se mencionó mas arriba, este tipo de herramientas son impulsada por el marketing digital y suelen tener una fuente determinada de orígenes y destinos, muy relacionados a usar los datos para la mejora de campañas, customer experience, etc.

          La integración en otros segmentos

          Cuando vamos a un ambiente corporativo donde las necesidades de integración conlleva la extracción de datos para ser usados en casos de uso distintos al del marketing, apelamos por lo general a Extraer, Transformar y Cargar la informacion. Sin embargo, este proceso también ha cambiado mucho los últimos años. Hemos cambiado #ETL a ELT, y aunque la diferencia parezca solo una letra, en la practica el cambio es grande. En un proceso #ELT los datos sin procesar se Extraen (E) del sistema de origen y se cargan (L) en un almacén de datos o data lake y para luego ser transformados (T).

          Esta “pequeña” alteración del proceso hace que los equipos de Integración estén adoptando otro enfoque nuevo, llamado “ETL inverso”.

          Que es ETL Inverso

          En lineas generales, ETL inverso (o reverse ETL) es solo otra canalización de datos. El ETL inverso es lo que hacen las herramientas arriba mencionadas y algunas mas, como Headsup, Polytomic y Seekwell. Básicamente consiste en mover datos desde un almacén de datos a sistemas de terceros para hacer que los datos estén operativos, a través de conectores prestablecidos, tanto para la extracción como el procesamiento e inserción en el destino.

          Conclusión

          El enfoque ETL inverso está ayudando a redefinir la plataforma de integración de datos al permitir que los equipos de datos creen pipelines de extremo a extremo eligiendo las herramientas que mejor se adapten a sus casos de uso mediante conectores prestablecidos, creando una plataforma que incluya ETL tradicionales, ELT para estructuras de data lake y event streams para plataformas realtime. Las plataformas de integración deben ser lo suficiente flexibles para lograr una canalización que asegure el transito de datos hacia las fuentes o herramientas mas apropiadas para cumplir con los desafíos de negocios que nos propongan, muchas herramientas provistas por proveedores cloud, otras tantas herramientas open source y muchas otras comerciales nos están permitiendo tener un abanico de posibilidades de gran potencia.


          Queres saber mas?

          [popup_anything id=”2076″]
          Categories
          54cuatro

          Como Openshift acelera los negocios

          Openshift es la plataforma de #containers de #RedHat que nos permite entregar a los desarrolladores de aplicaciones web espacios de trabajo para que desplieguen sus códigos realizados en distintos lenguajes de programación.

          El corazon de la plataforma

          Recordemos que esta aplicación de Red Hat esta basada en Kubernetes (K8s), una plataforma de código abierto que fue originalmente diseñada por Google y liberada a la Cloud Native Computing Foundation (#CNCF) y que sirve para automatizar la implementación, el escalado y la administración de aplicaciones en contenedores.

          Ventajas de usar Openshift

          Deployment evolution

          Dentro de #Openshift cada desarrollador se preocupa por el desarrollo de su aplicación, sin tener que conocer que pasa a nivel infraestructura. Mientras se avanza en el desarrollo, se utiliza un repositorio tal como #Github, ese proyecto creado sera luego el que Openshift tomará como código fuente del repositorio, y desde el cual creará una imagen Docker de forma automática. Esa nueva imagen Docker es la que se utilice para desplegar la aplicación.

          Ecosistema de Soluciones

          Algo verdaderamente potente, es la posibilidad de integrar a Openshift con todo un ecosistema de soluciones open source, muchas de las cuales fueron tuteladas por Red Hat y permiten armar un gran plataforma funcionando de forma conjunta.

          Una capa que brinda Red Hat para sumar a esto es su suite de #Middleware, que incluye:

          • Red Hat Runtimes
          • Red Hat #Fuse
          • Red Hat #3scale #API Management
          • Red Hat #AMQ (Broker, Interconnect, Streaming)

          Dentro de estas plataformas se encuentran los tradicionales productos como Jboss. En el caso de 3scale es para destacar que es una solucion de #APImanagement completa, es decir, incluye el #APIgateway, el #APImanager y el #APIportal.

          Esto es importante de destacar porque un API gateway por si solo no es una plataforma de API management. El gateway sirve para la integración de las API a nivel backend (ver entrada sobre APIs), pero el Manager y el Portal permiten a los usuarios definir los métodos de autenticación (e incluso integrarse con herramientas de SSO –Ver entrada sobre Keycloak-), límites y control de acceso, monetización, así como el análisis del uso de las APIs y un portal para los desarrolladores. 

          Recorrido por la herramienta

          Beneficios para todos

          Desarrolladores

          Como mencionamos, los desarrollares se benefician de Openshift al despreocuparse por la infraestructura, simplificar (y robustecer) la seguridad, optimizar la colaboración entre los grupos de trabajo, y finalmente entregar aplicaciones de forma rápida y segura acelerando el time to market.

          Administradores de Infraestructura

          Openshift permite entregar ambientes de manera mas rápida logrando disminuir los típicos roces que existen entre las áreas de desarrollo e infraestructura. El área de infra como operador de la platafoma lleva el control, visibilidad y administración.

          Habilita DevOps

          Hemos escrito muchas notas respecto a que es DevOps. Si bien existen muchos condicionantes que se requieren cumplir, recordemos que DevOps tiene como motor de cambio la integración de equipos de Desarrollo y Operaciones, y para lograr esa integración se necesita habilitar la Colaboración, la Automatización y la mejora continua. Openshift permite que los Devs implementen, creen sus pipelines de código (también hablamos de CI/CD en otras notas) mientras que Ops tengan como responsabilidad entregar una plataforma de contenedores estable y escalable para ello.

          OpenShift Origin consoles

          Por todo lo anterior, y porque permite actualizar aplicaciones legadas a arquitecturas mas modernas, porque le permite a los desarrolladores entregar aplicaciones robustas y funcionales en menor tiempo, es que Openshift permite acelerar los negocios.

          Queres saber mas?


          [popup_anything id=”2076″]