Categories
54cuatro

Comparativa entre herramientas de ETL

ETL es un acrónimo que significa Extracción, Transformación y Carga. Es un proceso utilizado en la gestión de datos para recopilar datos de diferentes fuentes, limpiarlo y transformarlo en un formato adecuado para su análisis y utilización en un sistema de información. Luego se carga en una base de datos o sistema de almacenamiento para su uso futuro. Es una técnica comúnmente utilizada en la integración de datos.

Existen herramientas open source, comerciales e incluso serverless provistas por cloud providers.
ETL (Extraction, Transformation & Load) – La Taberna del BI

¿Que herramienta de #ETL usar?

Talend es una plataforma de integración de datos que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Utiliza una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, lo que facilita la creación de tareas de integración de datos para usuarios sin experiencia en programación. Además, #Talend ofrece una amplia gama de componentes preconstruidos que se pueden utilizar para conectarse a diferentes fuentes de datos, como bases Talend Data Fabric - Opiniones, precios y características - Capterra Colombia 2023de datos, aplicaciones empresariales y servicios web. Estos componentes se pueden personalizar y combinar para adaptarse a las necesidades específicas de cada proyecto.

 

______________

Pentaho Data Integration (PDI) es una herramienta de integración de datos open-source que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Utiliza una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, conocida como Spoon, que facilita la creación de tareas de integración de datos para usuarios sin experiencia en programación.Qué es Pentaho Data Integration (PDI) y para qué sirve?

PDI tiene una amplia gama de componentes preconstruidos, llamados transformaciones y tareas, que se pueden utilizar para conectarse a diferentes fuentes de datos, como bases de datos, aplicaciones empresariales y servicios web. Estos componentes se pueden personalizar y combinar para adaptarse a las necesidades específicas de cada proyecto. También cuenta con herramientas para la limpieza y análisis de datos, así como para la generación de informes y la creación de dashboards.

PDI se utiliza en conjunto con el resto de herramientas de la suite Pentaho, como #Pentaho Report Designer y Pentaho Analyzer, para crear soluciones completas de Business Intelligence.

______________

Apache NiFi es una plataforma de flujo de datos open-source que permite la captura, flujo, transformación y distribución de datos a través de una interfaz gráfica de usuario fácil de usar. Es una herramienta altamente escalable y escalable que se puede utilizar para automatizar y optimizar los flujos de trabajo de datos en una variedad de entornos, desde pequeñas aplicaciones hasta implementaciones de gran escala.

Tus datos se cambian de casa? Apache NiFi te ayuda con la mudanza - Future Space S.A.

NiFi utiliza una arquitectura basada en flujos para organizar y controlar los datos, lo que permite a los usuarios crear flujos de trabajo de integración de datos mediante la arrastrado y soltado de componentes preconstruidos en una interfaz gráfica de usuario. Estos componentes, conocidos como procesadores, se pueden utilizar para realizar tareas como la captura de datos, la transformación de datos, la validación de datos y la distribución de datos a diferentes destinos.

#NiFi también cuenta con características avanzadas, como la capacidad de manejar y procesar datos en tiempo real, la seguridad y el control de acceso, y la monitorización y la gestión de flujos de trabajo. También tiene una integración con otras herramientas y tecnologías de big data, como Apache #Kafka, Apache #Storm y Apache #Hadoop.

Y que hay de los serverless, los que son ejecutados en las #cloud?

Azure Data Factory (ADF) es una plataforma de integración de datos en la nube de Microsoft que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Es un servicio en la nube que se ejecuta en Microsoft Azure y se utiliza para automatizar los flujos de trabajo de integración de datos.

ADF utiliza una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, llamados “pipelines”, que se componen de diferentes “actividades” que representan tareas específicas, como la copia de datos, la transformación y el procesamiento. Estas actividades se pueden utilizar para conectarse a diferentes fuentes de datos, como bases de datos, aplicaciones empresariales y servicios web, y para copiar y mover datos entre estos sistemas.

ADF también cuenta con herramientas para la automatización de tareas, como la planificación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de Microsoft Azure, como #Azure Data Lake Storage, Azure SQL Data Warehouse y #PowerBI.

Ademas, ADF tiene la capacidad de escalar automáticamente para manejar grandes volúmenes de datos y también cuenta con una variedad de opciones de seguridad y cumplimiento.

______________

AWS Glue es una plataforma de integración de datos en la nube de Amazon Web Services (AWS) que permite la conexión, la transformación y la integración de datos entre diferentes sistemas. Es un servicio en la nube que se ejecuta en AWS y se utiliza para automatizar los flujos de trabajo de integración de datos.

AWS #Glue ofrece una interfaz gráfica de usuario para diseñar flujos de trabajo de integración de datos, llamados “jobs”, que se componen de diferentes “tareas” que representan tareas específicas, como la copia de datos, la transformación y el procesamiento. Estas tareas se pueden utilizar para conectarse a diferentes fuentes de datos, como bases de datos, aplicaciones empresariales y servicios web, y para copiar y mover datos entre estos sistemas.

AWS Glue también cuenta con herramientas para la automatización de tareas, como la planificación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de AWS, como Amazon S3, Amazon Redshift y Amazon Athena.

Ademas, AWS Glue cuenta con un catálogo de metadatos, que permite a los usuarios registrar y gestionar información sobre sus datos, como estructura, relaciones y calidad de los datos. También tiene la capacidad de escalar automáticamente para manejar grandes volúmenes de datos y cuenta con opciones de seguridad y cumplimiento. Asimismo, AWS tiene otro servicio que se llama #DataPipeline.

AWS Data Pipeline es un servicio de #Amazon Web Services (#AWS) que permite automatizar la transferencia y la transformación de datos entre diferentes sistemas de almacenamiento y procesamiento de datos. Es un servicio en la nube que se ejecuta en AWS y se utiliza para crear flujos de trabajo de integración de datos y automatizar tareas relacionadas con la gestión de datos.

Con AWS Data Pipeline, los usuarios pueden crear flujos de trabajo de integración de datos mediante la definición de “tareas” y “relaciones” entre ellas. Cada tarea representa una actividad específica, como la copia de datos desde una fuente a un destino, la ejecución de una transformación o la ejecución de un script. Las relaciones entre las tareas definen el orden en que deben ejecutarse las tareas.

AWS Data Pipeline también cuenta con herramientas para la planificación automatizada de tareas, como la programación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de AWS, como Amazon #S3, Amazon #RDS y Amazon EMR.

Ademas, AWS Data Pipeline tiene la capacidad de escalar automáticamente para manejar grandes volúmenes de datos y cuenta con opciones de seguridad y cumplimiento. También permite a los usuarios monitorear y supervisar el progreso de los flujos de trabajo y detectar y solucionar problemas de manera eficiente.

______________

Google Cloud Dataflow es una plataforma de procesamiento de datos en la nube de #Google Cloud Platform (#GCP) que permite la ejecución de tareas de procesamiento y transformación de datos a gran escala. Es un servicio en la nube que se ejecuta en GCP y se utiliza para crear flujos de trabajo de integración de datos y automatizar tareas relacionadas con la gestión de datos.

Con Cloud #Dataflow, los usuarios pueden crear flujos de trabajo de procesamiento de datos mediante la definición de “tareas” y “relaciones” entre ellas. Cada tarea representa una actividad específica, como la lectura de datos desde una fuente, la ejecución de una transformación, la escritura de datos en un destino. Las relaciones entre las tareas definen el orden en que deben ejecutarse las tareas.

Dataflow permite a los usuarios crear flujos de trabajo utilizando un lenguaje de programación #Java o #Python, y utiliza un modelo de programación de tuberías y filtros para procesar los datos. Ademas, Dataflow es escalable y maneja de manera automática la distribución y el balanceo de carga para procesar grandes volúmenes de datos.

Dataflow también cuenta con herramientas para la planificación automatizada de tareas, como la programación de trabajos y la generación de informes, y cuenta con integración con otras herramientas y tecnologías de GCP, como #BigQuery, Cloud Storage, Cloud Pub/Sub.

Esperamos que esta nota haya sido de interés, y si tienes dudas puedes ponerte en contacto con nosotros.

[popup_anything id=”2076″]

 

 

Categories
54cuatro

Herramientas para modelar Arquitecturas Empresariales

Quienes trabajamos como #EnterpriseArchitect sabemos de la necesidad de documentar lo que vamos creando. Necesitamos herramientas UML para poder bajar a detalle y crear un esquema visual de lo que luego se convertirá en un producto.

¿Qué es #UML?

Esquema de UML

UML es una técnica para la especificación sistemas en todas sus fases, un lenguaje para hacer modelos y es independiente de los métodos de análisis y diseño.

Nació en 1994 cubriendo los aspectos principales de todos los métodos de diseño antecesores y, precisamente, los padres de UML son Grady Booch, autor del método Booch; James Rumbaugh, autor del método OMT e Ivar Jacobson, autor de los métodos OOSE y Objectory.

¿Cuales son las herramientas de UML?

Existen algunas herramientas tradicionalmente usadas para este tipo de trabajos. Tradicionalmente el #Visio de #Microsoft es de las más referenciadas.

En la actualidad existen muchas nuevas herramientas, algunas web, algunas open source, que permiten realizar el modelo de Arquitecturas Aplicativas o de IT en general.

El gran auge de la #nube, creó un sinfín de nuevas herramientas de modelado, algunas específicas para cada nube, como el caso de Cloud Craft que permite crear modelos basados en tecnología #AWS, y que además permite conectarse a la calculadora de #Amazon para realizar el presupuesto de lo que está definiendo.

Visual cloud designer
Captura de Cloud Craft

Sin dudas es una herramienta súper potente. Siguiendo dentro de la misma familia, existen algunas como Cloud Skew o Hava que nos permiten realizar el diseño no solo para AWS sino también para #Azure o #GCP.

Modelando en la web

No podemos dejar pasar por alto herramientas de mucha utilidad como LucidChart o Draw.io (ahora renombrada como Diagrams.net), que no solo son de utilidad para Arquitectos, sino para generar todo tipo de gráficos anidados con cierta lógica como Flujos de Procesos u Organigramas, como para mencionar algunos ejemplos.

Nuestra preferida: Archimate

Nuestra preferida es sin dudas #Archimate. Es quizás la herramienta hecha por y para Arquitectos Empresariales o Enterprise Architects, bajo el estándar abierto propuesto por Open Group.

Archi
Captura de Archimate

Archimate es una herramienta #OpenSource, que puede ser usada en #Windows, #Linux y #Mac, y que puede ser descargada desde la web archimatetool.com. Permite a los usuarios de esta tool, crear modelos basados en frameworks de arquitectura como #TOGAF. Dentro de una misma aplicación se pueden crear flujos de negocios, modelos de planificación de tipo Mind Mapping, modelos de interrelación aplicativa, y hasta planificaciones basadas en #Agile.

Sin dudas es la elegida por nuestro equipo, y la que recomendamos para llevar a cabo las tareas de planificación inherentes a un arquitecto.

¿Y tu equipo, qué herramienta utiliza?


[popup_anything id=”2076″]
Categories
54cuatro

Logística Anticipada – Procesos basados en Datos

¿Que es la Logística Anticipada?

El concepto de Logística Anticipada (“Anticipatory Package Shipping”) fue patentado por #Amazon en 2013. En líneas generales el concepto del modelo se trata de enviar un producto, que en el momento del envío no está vinculado a una dirección de entrega especificada, al centro de distribución más cercano desde donde el producto puede ser finalmente entregado al consumidor real en el futuro.

El modelo

La Logística Anticipada utiliza datos históricos de pedidos de consumidores para -predecir- pedidos futuros y, en consecuencia, enviar productos a los centros de distribución más cercanos antes de que los consumidores realicen los pedidos.

Este es un método para satisfacer las crecientes necesidades y demandas de los consumidores sobre el servicio de entrega -además de su impaciencia respecto de los plazos de entrega- y, al mismo tiempo, reducir los costos operativos.

El consumidor de hoy busca que sus compras online se correspondan con velocidades de entrega rápidas.

El modelo utiliza soluciones de big data para dar sentido a la gran cantidad de datos de compra de los consumidores, como por ejemplo los pedidos anteriores, los historiales de búsqueda de productos, las listas de deseos, el contenido del carrito de compras, las devoluciones, etc.

En este sentido, la implementación del modelo permitirá -predecir- cuando la demanda sobre un producto aumentará y por lo tanto el fabricante deberá aumentar su producción con una certeza razonable debido a la información obtenida.

En consecuencia, las empresas de logística pueden conocer con anticipación temprana las fechas posibles de entrega y calcular la cantidad de vehículos necesarios para distribuir los productos, logrando gestionar eficientemente el envío de estos a los centros de distribución más cercanos al consumidor.

Adicionalmente, el comerciante minorista, al contar con información certera, deberá aumentar su stock de productos para abastecer la futura demanda, como así también realizar diversas acciones de marketing online para generar nuevas ventas y hasta ofrecer entregas en el mismo día o incluso inmediatas.

En #SupplyChain, los modelos de Logística Anticipada junto a la implementación de dispositivos #IoT pueden ser de mucha ayuda para generar acciones de mantenimiento predictivo de las unidades de transporte, permitiendo tomar acciones anticipadas, evitar riesgos y minimizar los retrasos operacionales.

La digitalización y las nuevas fuentes de datos

Hoy las empresas no le sacan provecho a todos los datos que generan. La digitalización ha permitido el acceso a un gran número de fuentes de datos disponibles. Para escalar en el negocio, las empresas necesitan conocer y trabajar con esa información.

Utilizando la minería de datos, modelos predictivos o el aprendizaje automático se pueden generar nuevos datos y brindar información a través de tableros de control para tomar decisiones con mayor certeza, aumentando las ventas y reduciendo costos de operación.

Grandes Desafíos y Oportunidades

En el modelo de Logística Anticipada, ninguna empresa puede prever con exactitud qué ordenará realmente un consumidor en un futuro próximo con un 100% de certeza. Todo se basa en datos recopilados, historiales de búsqueda, notas y listas de deseos. Sin embargo, aquí no se incluyen compras espontáneas, cambios de deseos o excepciones. En este sentido hay una gran oportunidad para que, a través de la analítica de los datos, se pueda obtener información más certera sobre los consumidores.

Un desafío interesante es que, si bien en las áreas urbanas con centros de distribución cercanos, toda la gestión logística no parece imposible, es probable que en áreas más rurales sean más difíciles de suministrar con el modelo sin tener que calcular otras variables tanto geográficas como de densidad poblacional dentro del análisis.

Diversos estudios muestran que, el envío anticipado podría aumentar el nivel de servicio de entrega hasta un 35% y reducir los costos asociados hasta un 9,5%. Estos indicadores brindan información alentadora ya que impulsa a las empresas a implementar procesos basados en datos permitiendo mejorar la eficiencia y la calidad de servicio al predecir la demanda antes de que un consumidor haga un pedido.


[popup_anything id=”2076″]
Categories
54cuatro

Tutorial de Microsoft Azure

Este tutorial está destinado a que los principiantes aprendan todo acerca de #Azure. A través de este tutorial de Azure, comprenderás la arquitectura, varios productos de la suite Azure y conocer ventajas, migración de las instalaciones a la nube, administración y más.

Digamos que estás desarrollando una aplicación como Uber. Ya tiene esta aplicación lista en su computadora y el siguiente paso es hacer que esté disponible en Internet para que las personas puedan navegar e ir a este sitio web. ¿Cómo lo harías?

  • Primero. Tendrá que comprar un servidor, en el que cargará su aplicación, con todos los roles que se requieran (Webserver, Application Server, Database, etc) y/o comprar tantos servidores como roles requiera.
  • Segundo. Ademas debería disponibilizar entornos de desarrollo mas seguros y similares a producción que su notebook.
  • A continuación, deberá asegurarse de que su aplicación esté siempre disponible, contratando personas para administrar su servidor en que esta aplicación está alojada.
  • Y, por supuesto, las máquinas están destinadas a averiarse o quedar obsoletas; por lo tanto, deberá controlar el hardware del servidor, ya sea que esté actualizado o no, y esté listo para gastar algo de dinero si algo sale mal.
  • Finalmente, el aspecto más importante, a medida que su aplicación crezca en popularidad entre sus usuarios, sus servidores sobrecargarse con todo el tráfico. Tendrá que pensar en ampliar, manteniendo un control constante sobre el tráfico en su aplicación.

Parece factible? Bueno, lo anterior no solo requerirá mucho esfuerzo, ¡sino que también será extremadamente costoso!

Ahora, ¿te preguntas cómo resolverlo? Bueno, la respuesta es Cloud Computing.

¿Que es cloud computing?

Es básicamente el uso de servidores alquilados en Internet, en lugar de usar uno propio, se conoce como Cloud Computing.

Cloud Computing ha llevado a casi todas las nuevas empresas a cambiar a la nube; por lo tanto, no solo están ahorrando el costo inicial de iniciar un negocio con la infraestructura de TI correcta pero su aplicación ahora está siendo manejada por varios proveedores de la nube como Amazon, Microsoft, Google, etc.

El proveedor de la nube le cobrará en función de la cantidad de horas que utilizó sus servidores, puede configurar la redundancia en sus servidores lo que garantiza una alta disponibilidad de su aplicación, cualquier actualización de hardware o falla será manejada por su proveedor de nube evitando costos de mantenimiento significativos, y ademas puede configurar el autoescalado en su flota de servidores, es decir, siempre que haya un aumento en el tráfico de su aplicación, su proveedor de la nube escalará automáticamente sus servidores.

Existen 3 grandes jugadores en el mercado de nubes. #Amazon, #Microsoft y #Google. Amazon es el pionero y líder en market share con sus servicios #AWS. Microsoft tiene la mayor rentabilidad de servicios en nube por medio de #Azure. Y Google lidera el cuadrante de herramientas para trabajar con datos, ML y IA. En este tutorial vamos a trabajar con Azure.

¿Porque Azure?

Nuestra compañía tiene una orientación clara al uso de los datos para crear informacion que permita optimizar las decisiones de una empresa, mejorar los modelos operativos y redefinir las industrias, y en ese sentido, encontramos nuestra esencia muy acorde a las ideas de Satya Nadella, CEO de Microsoft y quien reconvirtió la compañía a este nuevo modelo. Azure nos asegura una gran cartera de servicios de Datos, tanto bases relacionales, NoSQL, Hadoop, como herramientas de Datalake, Machine Learning, IA e IoT.

La tecnología puede permitir que millones de personas participen en la sociedad de forma plena.

Satya Nadella.

¿Que es Azure?

Azure es una plataforma abierta y flexible que provee todos los servicios para la construcción rápida, despliegue y administración de soluciones basadas en la nube. Ofrece una amplia gama de servicios basados en uso, a través de aplicaciones, cómputo, almacenamiento y redes. Le permite construir aplicaciones usando cualquier lenguaje, herramienta o marco en un portal completamente automatizado de auto-servicio que habilita el aprovisionamiento de recursos escalables en minutos.

Microsoft define a Azure como “una creciente colección de servicios integrados en la nube, que los desarrolladores y los profesionales de TI utilizan para crear, implementar y administrar aplicaciones a través de nuestra red global de centros de datos”.

Azure tiene más de 20 categorías de servicios para ofrecer, hemos dividido los servicios de Azure en los siguientes dominios:

  • Cómputos
  • Almacenamiento
  • Base de datos
  • Seguridad
  • Administración
  • Varios

Cómputos: Son aquellos servicios referidos al despliegue de equipamiento para procesamiento, como las Virtual Machines que son equipos que llevan un sistema operativo Linux o Windows, y que permite trabajar con las mismas libertades que en un servidor físico. Dentro del servicio de Cómputos, se encuentran servicios de ejecución de tareas Batch y el Autoscaling.

Almacenamiento: Son aquellos servicios que permiten almacenar informacion, crear discos de VM, compartir filesystems, etc. Azure ofrece maquinas virtuales con distintos grados de performance para que su rendimiento sea mejor según los discos elegidos, como así también, discos mas performantes equivalen a precios mas elevados. Así también se debe considerar distintos tipos de storages para el almacenamiento de informacion de bases de datos, discos compartidos, etc.

Bases de Datos: Dentro de este titulo, vamos a englobar no solo bases de datos tradicionales como #MSSQL, #MySQL y #Postgresql, sino aquellas bases de tipo Key-Value, Documentales, de grafos, y columnares como CosmosDB, bases de cache como Redis, y los servicios de migración.

Seguridad: En la gama de servicios de seguridad, Azure posee una gran fortaleza propia del gran desarrollo de los servicios de Active Directory, que dentro del mundo cloud habilita servicios como controles de acceso de Roles, autenticacion multifactor, Single sign on, y servicios de encriptación. Por supuesto dentro de la suite de seguridad existen opciones de Firewall, WAF, protección DDoS/Threat y provisión de certificados.

Administración: Un factor muy importante de los servicios de nube, es poder gestionar distintos factores administrativos de forma simple y por medio de roles. Para ello en Azure existen distintos servicios como Portal, la consola donde se desplegan los servicios y aplicaciones; Billing API, una herramienta que permite controlar los gastos efectuados sobre la plataforma; Cost Management, que permite optimizar los costos y maximizar los beneficios de usar Azure; Resource Health, una excelente herramienta para monitorear el estado de los servicios contratados. Ademas Azure posee una calculadora muy simple e intuitiva para calcular los costos de nuevos servicios que quieran ser montados, que evitan sorpresas futuras.

Varios: Para finalizar, y que la entrada no se extienda demasiado, mencionar que solo vimos características principales porque este tutorial esta pensado para alguien sin experiencia en la plataforma; pero existe toda una gama de productos preconfigurados a través de un Marketplace, servicios de BigData y MachineLearning, integraciones DevOps, plataformas para el despliegue de aplicaciones Mobile y IoT. En entradas posteriores interiorizaremos mas sobre aplicaciones de Datos, DevOps, Containers y Serverless, mientras tanto pueden revisar las entradas de nuestro blog.

Empresas de todo el mundo están usando Azure para impulsar su infraestructura, ejecutan un servidor web / de aplicaciones para alojar sus sitios web, aplicaciones, mantener sus archivos de forma segura en la nube, usar una base de datos administrada o implementar archivos a escala global utilizando Content Delivery Network (CDN).

¿Por donde empezar?

Para una persona que quiere iniciarse en Azure, puede comenzar creando una cuenta en https://azure.microsoft.com/es-mx/free/ y familiarizando con la interfaz, ademas de analizar rutas de educación como https://docs.microsoft.com/en-us/learn/paths/azure-fundamentals/.

Ademas viendo la calculadora de costos de los servicios https://azure.microsoft.com/es-es/pricing/calculator aprender del Pago por Uso, del ahorro por reservas de instancias, pagar menos usando mas, comparativas de como ahorrar en servicios de bases de datos respecto a AWS, etc.


[popup_anything id=”2076″]