Categories
54cuatro

Manejar Synapse con Azure DevOps

Introducción

Synapse es una plataforma de #LakeHouse de #Azure. Permite armar un #datawarehouse, un #datalake e incluso correr scripts con desarrollos de #ML.

#AzureDevOps es un producto de Microsoft que proporciona funciones de control de versiones, informes, gestión de requisitos, gestión de proyectos, compilaciones automatizadas, pruebas y gestión de versiones.

Para la administración de los desarrollos que corren en la plataforma de #Synapse, es de vital importancia entender el enfoque CI/CD para un pipeline de data.

El enfoque sobre cómo manejar CI/CD con Azure Synapse difiere bastante de su enfoque de “desarrollo de software”. La única rama que puede usar para implementar su código es la rama de publicación (workspace_publish). Esta rama se creará/actualizará cuando presione publicar en su interfaz de usuario de Synapse, después de realizar cualquier cambio.

La rama de trabajo real, donde se integran todas las solicitudes de extracción para implementar nuevas funciones, es la rama de colaboración (rama principal). Esta es también la base para sus publicaciones automatizadas.

El pipeline CI

La construcción ya está prácticamente hecha, porque todo ya está preparado como una solución lista para la implementación. Esta es la razón por la que solo necesita empaquetar su código con fines de trazabilidad y reutilización.

El pipeline CD

Esta tarea también es bastante fácil, porque puede usar una tarea predefinida llamada “Implementación del espacio de trabajo de Synapse”. Aquí solo necesita insertar su Workspace de destino, autenticarse a través de Service Connection (Suscripción). Además, debe desactivar los disparadores para una compilación limpia, pero también hay una tarea previa a la compilación para usar en Azure DevOps llamada “toggle-triggers-dev”.

Azure Synapse Analytics Security, Governance, and CI / CD

CI/CD

Y ahora ambos juntos en una canalización yaml completamente funcional. El activador siempre se activa cuando se publica una nueva plantilla de Synapse en nuestra rama de publicación.

Categories
54cuatro

El ROI de IoT y su impacto en la Sustentabilidad 

Las organizaciones de hoy en día están bajo una enorme presión por parte de la gerencia y los clientes para ofrecer productos y servicios de mayor calidad a costos más bajos, y a su vez, hacerlo utilizando los recursos existentes.  

Se espera que cualquier gasto que hagan las empresas para ayudarlas a lograr este objetivo genere un #ROI medible y efectivo, y lo haga rápidamente. Aunque un número cada vez mayor de empresas aprovechan el IoT como parte de su estrategia de sustentabilidad, sigue existiendo una clara necesidad de poder demostrar los beneficios de hacerlo. 

Los líderes del mercado de hoy entienden que el ROI es multidimensional y que, en muchos casos, el componente de ahorro de costos puede ser secundario a otros beneficios, como mejorar la satisfacción del cliente, el valor generado hacia la sustentabilidad, la diferenciación de la marca y la recopilación de datos precisos, todo lo cual también puede generar mayores ingresos. 

A medida que las empresas hacen todo lo posible para retener y expandir las relaciones con los clientes existentes, sus activos más valiosos, los nuevos modelos comerciales y los servicios de valor agregado pasan a primer plano, y con ellos surgen nuevas oportunidades significativas para la empresa.  

ROI de IoT: beneficios y más allá 

Algunos beneficios relacionados al uso de #dispositivos #IoT es que se pueden convertir en métricas y esa recopilación de datos es instantánea y continua en el tiempo, proporcionando una forma de medir y cuantificar resultados. 

Por ejemplo, el uso de energía. Los #sensores y análisis de IoT proporcionan un marco para monitorear, medir y catalogar datos de sensores ambientales y de energía, incluidos el consumo y la demanda de energía, la calidad del aire y el consumo de agua de manera granular y dinámica. 

Tener todos esos datos de los dispositivos IoT al alcance de la mano produce información sobre las instalaciones y operaciones que conducen a decisiones más inteligentes. La “datificación” es el proceso de traducir operaciones que alguna vez fueron aparentemente invisibles en datos, y luego transformarlos en información para crear valor. 

Encontrar el valor 

Cada producto requiere cierto nivel de servicio y soporte y para ello las organizaciones adoptan cada vez más soluciones de servicio que identifican, diagnostican y resuelven problemas de forma remota.  

Una estrategia de IoT ayuda a brindar servicios proactivos que mejoran el tiempo de actividad y reducen la cantidad de visitas de campo o la duración de las llamadas de soporte. Al mismo tiempo, reduce drásticamente los costos del servicio, allanando el camino para el desarrollo de servicios de valor agregado basados ​​en los datos que se devuelven desde los dispositivos. 

Las organizaciones que fueron las primeras en poner sus dispositivos en línea ahora se están dando cuenta de que el verdadero “oro” en IoT es tomar esos datos e integrarlos con servicios de #CRM, #ERP, #DataWarehouse, que permiten optimizar procesos comerciales críticos, reduciendo llamadas de servicio, tiempos y gestión eficiente de retiro de productos, etc.  

Los datos de IoT de los activos conectados, en colaboración con otros sistemas empresariales, pueden proporcionar visibilidad y automatización que antes no eran posibles en todas las organizaciones.  

Por ejemplo, los datos de productos que fluyen a través de un sistema CRM también se pueden enviar a facturación o a un sistema de gestión de la cadena de suministro, lo que ayuda a eliminar los pasos manuales propensos a errores y brinda nuevas oportunidades de ventas para cosas como la reposición de consumibles o la renovación de la garantía. Además, la integración con el control de calidad o la gestión del ciclo de vida del producto (#PLM) puede ayudar a mejorar las características del producto en función de datos del mundo real que muestran patrones de uso o problemas del equipo, lo que ayuda a mejorar la satisfacción del cliente y agilizar los procesos. 

Hoy los dispositivos IoT ofrecen a las empresas la capacidad de brindar un mejor servicio a un menor costo, minimizar el tiempo de respuesta y maximizar el uso y el alcance de sus recursos. Al mismo tiempo, permite mejorar los ingresos, los márgenes, la participación de mercado y, lo que es más importante, la satisfacción del cliente. Las soluciones de IoT pueden ser la clave para brindar un servicio de excelencia a sus clientes, obtener información comercial certera, mejorar los procesos comerciales y generar valor en productos, servicios e innovación. 

Medición de su desarrollo sostenible 

IoT puede proporcionar una mayor visibilidad de sus procesos y condiciones ambientales, específicamente el consumo de energía, la calidad del aire y la calidad del agua. Examinar esos datos a lo largo del tiempo le brindará un mecanismo de retroalimentación que le permitirá “ver” el impacto de sus esfuerzos. 

Dependiendo de su empresa y sus objetivos/prioridades, una o más métricas pueden ser más “ponderadas” para usted que para otra organización. En última instancia, su desempeño en estas categorías debe combinarse en un mecanismo de informes integral, una especie de “Cuadro de Mando Integral de Sustentabilidad”, que se puede evaluar fácilmente. No sólo obtendrá una mejor perspectiva de la eficacia de lo que está haciendo, sino que sus accionistas, inversores y clientes tendrán una forma cuantificable de evaluar su desempeño de sustentabilidad a lo largo del tiempo. 

Estas medidas también se pueden comparar con otros datos, como los cambios en el compromiso de los empleados, la satisfacción del cliente o los datos de ventas. Las correlaciones pueden indicar que sus esfuerzos están teniendo un impacto y que su capacidad para cuantificar los esfuerzos de sustentabilidad está, por ejemplo, aumentando el valor de su marca o mejorando el compromiso de los empleados. 


[popup_anything id=”2076″]

Categories
54cuatro

Todo sobre PCS el framework para Data Science de Berkeley

Como continuidad del post de MLOPS, queremos mencionar sobre PCS.

En simples palabras podemos afirmar que PCS es un framework de Data Science, creado por Bin Yua y Karl Kumbiera, del Departamento de Estadísticas de Berkeley. Es una especie de MLOPS con sustentos científicos.

Las siglas #PCS vienen de #predictability, #computability, y #stability (#predictibilidad, #computabilidad y #estabilidad).

Pero veamos de que sirve PCS.

¿Cuál es el objetivo de PCS?

Este framework esta compuesto por un flujo de trabajo denominado DSLC (data science lifecycle) que busca proporcionar resultados responsables, confiables, reproducibles y transparentes en todo el ciclo de vida de la ciencia de datos.

PCS busca generar una metodología para el correcto abordaje de proyectos de data science, teniendo en cuenta como abordar un nuevo requerimiento, como recabar la informacion, como procesarla y lógicamente, como hacer de esa data informacion de valor.

Como analistas de datos, podemos encontrarnos con proyectos disimiles. Desde analítica de cadenas proteicas, hasta fraude bancario. Detección temprana de cáncer hasta aumento de venta en e-commerce. Exploración petrolera hasta detección de spam. En fin, podemos analizar cualquier cosa.

Cuando involucramos la matemática en nuestros análisis todo se transforma en Ciencia de Datos, y es por eso que PCS es una buena base para lograr estandarizar procesos tanto para analizar datos financieros, como imágenes, o voz u otros.

¿Cómo funciona PCS?

El flujo de trabajo de PCS utiliza la predictibilidad como una verificación de la realidad y considera la importancia de la computación en la recopilación / almacenamiento de datos y el diseño de algoritmos.

De esta manera aumenta la previsibilidad y la computabilidad con un principio de estabilidad general para el ciclo de vida de la ciencia de datos.

El ciclo de ciencia de datos, contiene 8 pasos concatenados que nacen desde un requerimiento (pregunta de dominio), y continua con un #pipeline basado en la recopilación de datos desde los orígenes de datos (bases de datos, redes sociales, imágenes, audios, etc), la limpieza y procesamiento de esa data recolectada, la exploración, y el modelado.

El tipo de modelado va a depender del tipo de dato que tengamos, la frecuencia, su calidad, etc.

Podemos pensar en un modelado habitual en #datawarehouse o en un modelo mas ligado a un #datalake. Posteriormente a esto se efectuaran los análisis sobre esos modelos, se interpretaran los resultados y finalmente se actualizaran los conocimientos.

Ciclo de vida de Data Science

La estabilidad amplía las consideraciones de incertidumbre estadística para evaluar cómo las llamadas del juicio humano impactan los resultados de los datos a través de las perturbaciones de los datos y del modelo / algoritmo.

Además, esta metodología considera procedimientos de inferencia que se basan en PCS, a saber, intervalos de perturbación de PCS y pruebas de hipótesis de PCS, para investigar la estabilidad de los resultados de los datos en relación con la formulación de problemas, limpieza de datos, decisiones de modelado e interpretaciones.

Ejemplo de un Caso de Uso

Guiados por el pipeline del grafico, vamos a simular una situación real, para hacer feliz a un gerente comercial:

Un gerente feliz
  1. Pregunta de Dominio: un responsable comercial de una fabrica de Sommiers quiere conocer que cadena de retail es la que mas productos vende y cual será la que mayor proyección de ventas tendrá el próximo año.
  2. Recopilación de Datos: con herramientas de orquestación vamos a buscar datos provenientes de sistemas de ventas, finanzas, logística y también de las redes sociales.
  3. Limpieza: vamos a acomodar los datos de manera de poder ver la informacion para pasar al siguiente punto.
  4. Explorar los datos: visualizar los datos desde distintos ángulos para determinar que tengamos info de ventas, facturación, entregas, y campañas de marketing.
  5. Modelado: con toda la informacion recolectada y luego de confiabilizarla, vamos a modelar nuestra fuente de procesamiento de datos que fue nutrida por los pasos anteriores.
  6. Análisis Post Modelado: desde este nuevo origen de datos vamos a generar nuevos análisis, con mayores capacidades, corriendo análisis con algoritmos de Predicción de Ventas, Fidelización de Clientes usando Machine Learning.
  7. Interpretación: los algoritmos nos van a dar 2 tipos de resultados. Por un lado su performance, con lo que vamos a determinar si la informacion que tenemos es adecuada, o si necesitamos mas o mejor data. Y por otro lado en caso de que el algoritmo tenga buena performance vamos a lograr nuevos insights de negocios. Por ejemplo, determinar que una cadena de retail fue el que mas vendió durante el año en curso, pero que por sus campañas en redes sociales y el crecimiento YoY otra cadena será la que mas venda el año entrante.
  8. Actualizar conocimientos: Con esos outputs, vamos a poder tener nuevos insights que alimenten una nueva estrategia comercial, a partir de lo cual podemos ofrecer descuentos, u otros incentivos a la cadena de retail que creemos que será nuestro mejor socio.

Conclusiones

En este artículo, se unifican tres principios de la ciencia de datos: predictibilidad, computabilidad y estabilidad.
En resumen, este nuevo marco conceptual y práctico para formular procedimientos basados en ciencia de datos, recolectando y procesando informacion, y mostrando resultados valiosos de cara al negocio.

Queres bajarte el paper original de la universidad de Berkeley:


[popup_anything id=”2076″]

Categories
54cuatro

Videoblog: Datalake vs Datamart vs Datawarehouse

No te pierdas este video para entender las diferencias entre #Datalake vs #Datamart vs #Datawarehouse.

[popup_anything id=”2076″]