Etiqueta: MachineLearning

DSaaS – la ciencia de datos como servicio

Post author By 54admin
Post date 26/01/2022

La transformación digital afecta a todas las áreas de negocio, incluida la innovación de productos, las operaciones, la estrategia de comercialización, el servicio al cliente, el #marketing y las #finanzas. 

Sin embargo, la digitalización no se trata solo de acelerar los procesos comerciales y aprovechar nuevas oportunidades. También se trata de la necesidad de superar la disrupción digital y solidificar la posición de uno en un entorno empresarial en rápida evolución. 

Para identificar qué áreas necesitan ser transformadas y cómo, para eliminar los posibles riesgos y evitar el drenaje innecesario de recursos, las organizaciones modernas adoptan el enfoque basado en datos para la transformación digital. Usan ciencia de datos, #bigdata, #machinelearning, #BI para recopilar, procesar y analizar sus datos comerciales, que luego pueden convertir en información procesable.

Las últimas encuestas indican que la conectividad e integración de datos se consideran componentes críticos para la transformación digital en la mayoría de las empresas. 

En este caso, #DSaaS (la ciencia de datos como servicio) puede desempeñar un papel crucial para ayudar a transformar digitalmente su negocio y aumentar el #ROI.

¿CÓMO FUNCIONA DSaaS?

DSaaS es principalmente un modelo de servicio basado en la nube, donde se proporcionan diferentes herramientas para el análisis de datos y el usuario puede configurarlas para procesar y analizar enormes cantidades de datos heterogéneos de manera eficiente. 

Los clientes disponibilizarán los datos de la empresa en la plataforma DSaaS y obtendrán información analítica de valor. Estos conocimientos analíticos son producidos por aplicaciones, que armonizan los flujos de datos creados a partir de la utilización de servicios que generan los algoritmos. Una vez que los clientes cargan los datos en la plataforma, el DSaaS se puede incorporar con ingenieros de datos que trabajarán en los datos cargados. 

En su mayoría, existen modelos basados en suscripción. También se puede generar una entrega meticulosa de modelos predictivos listos para producción y análisis de datos utilizando otras metodologías. 

HABILITACIÓN DE LA TOMA DE DECISIONES BASADAS EN DATOS

Dado que la transformación digital es un proceso complejo, los datos sobre sus clientes y las operaciones comerciales pueden ayudarlo a tomar decisiones informadas y, al mismo tiempo, evitar riesgos innecesarios. 

Con las capacidades de ciencia de datos, puede identificar cómo transformar digitalmente su negocio y qué áreas comerciales requieren transformación. Al mismo tiempo, la ciencia de datos como servicio permite a las empresas contratar a un proveedor profesional que tiene los recursos necesarios y puede ayudarlo a implementar esta transformación más rápido, manteniéndolo por delante de la competencia.

No es de extrañar por qué cada vez más organizaciones están adoptando la ciencia de datos como un servicio para acceder a un enorme grupo de expertos en datos para mejorar su toma de decisiones. En consecuencia, las empresas, pueden generar un impacto en su estrategia y operaciones digitales, ya sea en forma de aumento de ingresos, reducción de costos o eficiencias mejoradas. 

Con DSaaS, la inteligencia del cliente ahora está tan optimizada y accesible en todos los niveles de la organización como sea posible. Por lo tanto, incorporar e inculcar la ciencia de datos como un servicio en los procesos de toma de decisiones es esencial para obtener los resultados y beneficios deseados de las tecnologías digitales.

IDENTIFICAR AMENAZAS Y OPORTUNIDADES

El volumen de información disponible está creciendo rápidamente junto con las oportunidades que abre. La ciencia de datos como servicio permite a las organizaciones hacer frente a la escasez de científicos de datos y aprovechar la ciencia de datos para obtener una vista más panorámica y detallada de su entorno empresarial. 

La ciencia de datos está habilitando la próxima generación de soluciones que pueden predecir lo que sucederá y cómo evitarlo. Por ejemplo, imagine tener una aplicación CRM con la capacidad de pronosticar qué clientes tienen más probabilidades de realizar la próxima compra, qué productos serán parte de esa compra y qué clientes están en riesgo de desgaste.

Las soluciones habilitadas por la ciencia de datos permiten a las empresas de diversas industrias tener visibilidad en tiempo real de sus clientes, lo que ayuda a los tomadores de decisiones a optimizar las operaciones internas para una mayor agilidad, mayor flexibilidad y menores costos. 

¿CÓMO MONETIZAR LOS DATOS?

Las empresas a menudo se sienten confundidas y escépticas cuando llega el momento de monetizar sus datos. Casi todo el tiempo, no saben cómo hacerlo.

Sin embargo, la ciencia de datos como servicio puede ayudar a una empresa a monetizar sus datos mediante un análisis profundo en una revisión de producto, quién lo compraría y por qué razones. Por eso se realizan encuestas para recolectar una muestra de datos, que es una herramienta para fabricar sus estrategias de marketing. Después de tales encuestas, las herramientas de análisis de datos ilimitadas disponibles para crear ideas útiles.

Este proceso también ayuda a una empresa a comprender la necesidad de su producto y cuánto debe lanzarse al mercado en un momento dado (incluso antes de lanzar el producto).

WRAP-UP

DSaaS es una opción ideal para que las empresas administren sin un gran equipo de científicos y analistas de datos internos. Proporciona a las empresas acceso a recursos de análisis para demandas particulares de ciencia de datos sin mucho gasto en la creación de dichos equipos desde cero.

Aprovechar todo el potencial de las tecnologías y los datos innovadores requiere desarrollar una estrategia eficaz de ciencia de datos. DSaaS presenta enormes oportunidades al permitir a las empresas aprovechar fácilmente los datos para tomar mejores decisiones, operar de manera más eficiente y rentable, ofrecer experiencias más personalizadas y mejorar la calidad general de los servicios. 

Por lo tanto, las empresas ya no tienen que depender de conjeturas, ya que la ciencia de datos puede ayudar a hacer predicciones más concretas cuando fallan tanto la intuición humana como la experiencia. La clave para aprovechar estas oportunidades radica en nuestra capacidad para introducir sin problemas la ciencia de datos en los procesos de transformación digital de su empresa.

Tags BI, BigData, DSaaS, finanzas, MachineLearning, marketing, ROI

54cuatro

Detección de Fraude usando Machine Learning

Post author By 54admin
Post date 19/09/2021

¿Que es el fraude?

El fraude es una práctica efectuada ilegalmente para obtener algo a partir del engaño. El fraude esta penado por ley, y el mundo electrónico no es una excepción. Vamos a separar el #Fraude en 2. Fraude Duro y Fraude Blando.

Para poner algunos numeros sobre la mesa, el fraude Bancario mas habitual es el uso indebido de cajeros y la clonación de tarjetas. En el caso del fraude en E-Commerce lo mas habitual son las compras con tarjetas o información robada a clientes.

Tipo de Fraudes

5 tips para evitar fraudes en e-commerce - Destino Negocio

Fraude Duro: cuando hablamos de este tipo de abuso, hablamos de engaños deliberados, donde se busca obtener un beneficio por medio del engaño. Este tipo de Fraude incluye todo tipo de eventos criminales, como por ejemplo la compra de productos con una tarjeta de crédito robada.

Fraude Blando: este tipo de actividad considera las prácticas abusivas de personas que aunque no se las considere delincuentes, pueden infringir norman y/o realizar abusos que los llevan a cometer delitos. Para poner de ejemplo de este tipo de eventos, que suelen estar ligados a reclamos excesivos, podemos mencionar la exageración y/o engaño de los daños que se presentan a las compañias de seguros.

¿Porque ocurren los fraudes?

Los fraudes suelen ocurrir ante Oportunidades que son “explotadas” o “vulneradas”. Una Oportunidad Explotada puede ser la detección de una tienda que no realiza los controles de seguridad recomendados y que permite realizar compras con una tarjeta de crédito sin validar la identidad. Una Oportunidad Vulnerada, viene de la mano de situaciones donde el atacante suele “convencer” a la victima, por ejemplo una persona que persuade a su mecánico de exagerar el reporte de daños para sacar mas dinero de la cobertura de seguros.

La transformación digital, genera un significativo aumento de los beneficios a partir de la digitalización de las operaciones de una compañía, pero también a medida que el mundo electrónico gana participación, los fraudes aumentan en cantidad y complejidad.

¿Se puede evitar?

Prácticamente todas las emrpesas se encuentran expuestas a estas situaciones, y para poder reducir el riesgo, es necesario comprender la naturaleza de por qué las personas son proclives a cometer fraude. Cuales son sus motivaciones, estrategias y herramientas, permite conocer como defenderse de sus acciones. Aquí es donde es de vital importancia contar con 2 cuestiones básicas:

Contar con datos históricos de transacciones, catalogadas para entender cuales son fraudulentas y cuales no.
Contar con conocimientos que permitan a un analista alimentar de conocimiento a un sistema maestro, con la menor cantidad de sesgos y que sea el motor de un sistema de aprendizaje automatico que cada dia tenga mejor performance.

Existe un método de trabajo Anti-Fraude, basado en 4 letras: P-D-R-D

Prevenir-Detectar-Responder-Diasuadir

Prevenir es concientizar acerca de los riesgos, tanto a personas internas como a clientes finales. Un usuario con educación financiera sabe que no debe compartir datos personales, datos financieros y mucho menos claves en un llamado telefónico. El factor cultural genera una disminución de los puntos vulnerables que los delincuentes usan en su favor.
Detectar el fraude es complejo y es donde se centran mayormente los esfuerzos. La detección es donde se invierte mayor presupuesto y esfuerzos, para detectar Transacciones Espurias, Suplantaciones de Identidad o Sistemas de Scoring. Existen diferentes sistemas antifraude con Machine Learning, que van desde la detección de transacciones electrónicas, el reconocimiento facial y cognitivo (voz/imágenes/documentos de identidad). Los sistemas de detección deben cumplir 2 condiciones:
1. El costo del sistema no debe ser superior al de las pérdidas.
2. Debe estar realizado con técnicas, como #MachineLearning, que le permita ser un sistema “vivo” que pueda ser entrenado e ir mejorando sus predicciones.
Responder significa tomar acciones inmediatas apenas detectada una situación irregular. Las respuestas esperadas al momento de la detección de un fraude son:
- Avisar y tomar intervención de la situación
- Recopilar datos que permitan identificar al delincuente y que sean útiles en acciones legales
- Dar aviso a autoridades policiales/judiciales
- Cancelar y dar “vuelta atrás” de transacciones
- Generar nuevo conocimiento para el sistema de Aprendizaje para lograr mayores índices de detección en el futuro
Disuadir el fraude, esta intimamente ligado a la prevención, pero a diferencia de cuestiones genéricas, la disuación tiene que evitar el fraude a partir de eliminar aquellos factores que generan fraude, ya sea a partir de la aplicación de soluciones tecnológicas, el cambio en procesos/procedimientos o el refuerzo cultural sobre buenas prácticas.

Construyendo un sistema AntiFraude

Fraude bancario — Esquema de Deteccion de Fraude en una Base de Grafos

La aplicación de la tecnología por si sola no va a generar beneficios, si no se tiene en consideración los puntos mencionados anteriormente. Existen diferentes técnicas y estrategias para el armado de sistemas anti fraude, que requieren de la recopilación de datos, del armado de modelos de aprendizaje y algoritmos que permitan clasificar de “Fraude” / “No Fraude”. Las plataformas para procesar esta información pueden estar basadas en #BigData o sistemas de bases de datos #NoSQL; siempre dependiendo del caso de negocios.

Una gran herramienta para estas plataformas de gestión del fraude son las bases de datos NoSQL denominadas “de grafos”. Este tipo de bases permiten almacenar las relaciones entre los datos y observar esas relaciones con mucha facilidad. Esta facilidad para detectar relaciones se transforma en un gran diferencial que permite escubrir redes de fraude y otras estafas sofisticadas con un alto grado de precisión, y son capaces de detener escenarios de fraude avanzados en tiempo real.

[popup_anything id=”2076″]

Tags BigData, Fraude, MachineLearning, NoSQL

54cuatro

Data Management – ¿Como llevar a cabo una estrategia de gestión exitosa?

Post author By 54admin
Post date 27/06/2021

El crecimiento de los datos se torna exponencial desde hace algunos años a hoy. Pero ese crecimiento no se ve reflejado en la utilidad que se hace de ellos, en gran medida, debido a que el porcentaje de crecimiento de datos corresponde a datos complejos de analizar.

Para simplificar esa complejidad y poder sacar valor de los datos, es que es tan importante una estrategia de Data Management.

¿Como llevar a cabo una estrategia adecuada?

Una estrategia de gestión de datos que generen valor para la organización, debe concentrarse en algunos puntos, a saber:

Planificar que tipos de datos y pipelines va a requerir una plataforma analítica para resolver un caso de negocios
Ser meticuloso en la gestión de la “calidad del dato”
Crear un ciclo de vida
Gestionar la ‘metadata’
Cree políticas adecuadas

Data Governance: Development, Roles & Benefits | CC CDQ

Estos 5 puntos son los títulos iniciales que requiere administrar como puntapié inicial de su estrategia de datos.

Vamos a ampliar cada punto para entender por que.

Planificar que tipos de datos y pipelines va a requerir una plataforma analítica para resolver un caso de negocios

Los proyectos de analítica suelen surgir siguiendo la regla ‘explorar los datos para ver que se encuentra’.

Contrariamente a este proceso habitual, los proyectos de analítica deben nacer planteando el requisito de negocios, y desde allí conseguir los datos adecuados. Esto trae como finalidad evitar 2 cuestiones. Una es encontrarse con datos sucios, evitando los procesos complejos de limpieza que se deben realizar para que tengan usabilidad. Y dos, permite considerar que datos son útiles, de dónde provienen y cómo se almacenarán.

Ser meticuloso en la gestión de la “calidad del dato”

La calidad del dato es un aspecto cada dia mas importante. La calidad (#dataquality) tiene que ver con muchas cuestiones. Datos inconsistentes, datos repetidos, info desactualizada. Hay muchas cuestiones que pueden atentar contra la calidad, pero ademas de corregir el dato en si mismo, es importante detectar porque se genera informacion de baja calidad.

¿Hay áreas en las que se producen duplicaciones de la información?

La respuesta proactiva en este caso es detectar la fuente de las inconsistencia para así aplicar reglas que corrijan ciertos procesos o acciones. Con esto vamos a lograr un aumento de la calidad.

Crear un ciclo de vida

Como analizamos en el punto anterior, para optimizar la calidad debemos establecer reglas. Y un buen proceso de creación de reglas es considerar establecer un ciclo de vida de los datos, donde podamos definir:

Identificar el #linaje de los datos
Establecer procesos de creación y eliminación
Formas de almacenar
Políticas que definan como compartirá con terceros
Etc

El ciclo de vida es nuestra hoja de ruta para comprender la calidad y la utilidad de nuestros datos.

Gestionar la ‘metadata’

La #metadata es una gran amiga de los procesos de #gobernanza. Es un repositorio donde podemos contar con la informacion de como viaja la data, como se almacena, como se gestionan los cambios, etc.

Un buen plan de #governance cuenta con una gestión apropiada de los #metadatos, y principalmente se establece una identificación de los datos para asegurar la calidad, el compliance, la gestión y colaboración de nuestra info.

Cree políticas adecuadas

En el punto anterior mencionamos que la metadata permite crear una base de gestión que entre otras cosas, asegura el compliance.

Establecer políticas permite garantizar la importancia de nuestros datos, y conocer a detalle los impactos que tienen los mismos sobre la organización, gestionando el crecimiento del volumen de la informacion, su gestión y su usabilidad. Como mencionamos, el crecimiento del volumen de la info es exponencial y tener políticas adecuadas para la gestión de los mismos lo encontrara en gran forma para hacer frente a cambios, nuevas fuentes y nuevos requisitos de negocios que sean planteados.

Conclusión

Las empresas mas avanzadas en materia de gestión de datos están aplicando técnicas de #MachineLearning para su categorización y administración, pero aquellas con un poco mas de retraso, comenzar a establecer políticas de gestión de datos es un gran paso hacia la dirección de tener una estrategia integral de datos para la organización.

En este breve post quisimos mostrar aquellos hitos fundamentales en cuenta a #DataManagement, pero existen muchos mas condicionantes a tener en cuenta.

Para mayor informacion pueden contactarse con nosotros desde el siguiente formulario.

Tags DataManagement, dataquality, gobernanza, governance, linaje, MachineLearning, metadata, metadatos

54cuatro

Porque fallan los proyectos de Inteligencia Artificial

Post author By 54admin
Post date 09/05/2021

Una tecnología disruptiva o una innovación disruptiva es una innovación que ayuda a crear un nuevo mercado y una nueva red de valor y, finalmente, continúa alterando una red de mercado y valor existente.

¿Porque fallan los proyectos?

En la actualidad 1 de cada 10 proyectos relacionados con #IA logra tener éxito. El éxito no esta medido por el cumplimiento de las implementaciones, sino por el valor que se logra de cara al negocio.

Las fallas en este tipo de proyectos (en nuestra experiencia) vienen dados por 2 puntos:

Falta de colaboración entre las áreas para lograr una solución que aporta valor.
No tener los datos adecuados.

¿Cómo mitigar los riesgos?

En #54cuatro tenemos una #metodología que permite a nuestros clientes ir logrando un nivel de madurez que asegure el éxito de los proyectos de #InteligenciaArtificial.

Esa metodología denominada #Metolodogia54, busca lograr convertir a los clientes hacia empresas #DataDriven, afectando sus capacidades en cuanto a factores Culturales, Procesos y Tecnología en pos de asegurar la creación de sinergias entre los grupos de trabajo y obtener (o crear) los datos adecuados.

Tendencias en boga como #MLOPS son buenas alternativas para optimizar proyectos de #MachineLearning y aproximarse con mayor seguridad al éxito buscado, pero además es importante que todas las personas de la organización estén comprometidas a buscar el éxito, dado que los proyectos IA son 100% colaborativos es fundamental considerar los datos que se tienen disponibles y los conocimientos que se pueden obtener de ellos pero es aun mas necesario considerar el nivel de apoyo de la gerencia u organización en general y finalmente establecer expectativas realistas en torno a lo que la #IA ayudará a resolver.

Medición de resultados

Con las expectativas marcadas como hito a cumplir, es necesario generar una adecuada medición de resultados. El personal técnico suele medir el resultado de un modelo de datos por como “performa” ese modelo (Precision, Recall, F1, etc). Ese es un grave error que genera desconfianza en lo que se esta realizando. En su lugar, es preferible establecer hitos de éxito medibles en los términos más importantes para la empresa, como eficiencia operativa, aumento de ventas o de ahorro de costos.

Algunas otras veces, se espera un nivel mínimo de resultados de cada modelo, sin embargo es bueno participar a gente de áreas de negocio mientras se realizan los desarrollos para que puedan probar y comparar el rendimiento, realizar sugerencias y complementar el modelo con las fortalezas (y debilidades) de los expertos ‘humanos’.

En modelos predictivos, crear un ciclo de retroalimentación permite mejorar el reentrenamiento para que su modelo pueda incorporar rápidamente nuevos puntos de datos y dar como resultado un aumento y mejora de las predicciones futuras.

Conclusión

Los proyectos basados en tecnología disruptiva generan grandes expectativas pero para poder cumplir con lo que se espera, es necesario comprometer a la organización en pos de lograr buenas fuentes de datos y poder trabajar con los científicos de datos a medida que se generan soluciones de negocio, retroalimentando los desarrollos con experiencia de las personas.

Tags DataDriven, IA, InteligenciaArtificial, MachineLearning, metodología, Metolodogia54, MLOps

54cuatro

Que es CRISP-DM y como utilizarlo en proyectos de analítica

Post author By 54admin
Post date 17/01/2021
No hay comentarios en Que es CRISP-DM y como utilizarlo en proyectos de analítica

¿Que es CRISP-DM?

CRISP–DM es una metodología utilizada en proyectos de Data Mining. Es la guía de referencia más utilizada.

Consta de 6 fases fundamentales para encarar cualquier proyecto de Data Mining.

Comprensión de los requisitos de negocios
Comprensión de los datos disponibles
Preparación de los datos
Modelado
Evaluación
Implementación

1- Fase de Comprensión de los requisitos de negocios

En esta fase se realiza el análisis del requerimiento de negocios que buscamos resolver utilizando análisis sobre los datos.

Es una de las fases mas importantes, si no la mas importante. Establecer el objetivo permite determinar que datos necesitamos, buscar las fuentes y analizar la calidad de los datos disponibles.

El proceso de adquisición de datos es muy tedioso, dependiendo del problema que intente resolver.

2- Comprensión de los datos disponibles

Durante esta fase se identifica que datos tenemos, y como mencionamos, se analiza la calidad de esos datos.

Se busca comprender si existen faltantes fundamentales, la calidad, las relaciones, y también es donde se efectúan análisis exploratorios hipotéticos. Por ejemplo:

Seleccionar columnas importantes
Filas de muestreo (prueba de tren dividida, validación cruzada)
Crear o derivar nuevas variables compuestas
Filtrar datos (filtrar puntos de datos irrelevantes)
Fusión de fuentes de datos (agregaciones de datos)
Imputar o eliminar valor faltante
Decidir si eliminar o mantener el valor atípico

3- Preparación de los datos

En esta fase se realiza la preparación de los datos para adaptarlos a las técnicas de Data Mining que se utilicen posteriormente, tales como técnicas de visualización de datos, de búsqueda de relaciones entre variables u otras medidas para exploración de los datos.

Durante esta etapa se va a seleccionar la técnica de modelado mas apropiada, junto con la limpieza de datos, generación de variables adicionales, integración de diferentes orígenes de datos y los cambios de formato que sean necesarios.

4- Modelado

Durante el modelado, se busca establecer modelos de análisis basados en las técnicas de mining que son apropiadas al objetivo de negocios con los datos disponibles que tenemos. Si el objetivo conlleva una solución que tiene que ver con técnicas de Clasificación, podemos elegir entre Arboles de Decision, K-Near, CBR u otros. Si lo que buscamos resolver tiene que ver con Predicciones, realizaremos análisis basados en Regresiones.

Una vez determinado el modelo, se construye y adicionalmente se debe generar un
procedimiento destinado a probar la calidad y validez del mismo. Por eso pasamos a la siguiente fase, Evaluación.

5- Evaluación

Durante esta fase, se realizan 2 evaluaciones. Por un lado se evalúa el modelo, teniendo en cuenta si se cumplen los objetivos de negocios planteados. Para ello se utilizan técnicas para determinar la performance de modelo, y en base a eso, ajustar las variables que mejoren su rendimiento.

Por otro lado, se evalúa que las evaluaciones realizadas por los modelos probados, son de valor para el negocio. Durante esta parte de la evaluación, es necesario trabajar con gente que pueda interpretar si los datos son fiables o es aconsejable probar otros modelos.

6- Implementación

En la fase anterior, un analista de negocio nos dio feedback sobre los resultados obtenidos. Si los datos no fueran fiables, volveríamos a fases anteriores, para ajustar el proceso.
Pero si los datos dieran resultados valiosos, y es donde esta sexta fase, se considera la fase de implantación del conocimiento obtenido para que sea transformado en acciones dentro del proceso de negocio, por medio de accionables estratégicos (campañas de marketing, de ventas, publicitarias, ofertas, mejores precios, etc etc etc).

Detalles a tener en cuenta

#CRISP-DM cumple con 6 fases, las cuales no son estáticas ni estancas. Este proceso es dinamico y se debe considerar un proceso de revisión del proceso entero de #datamining, para poder identificar datos, variables, relaciones y cualquier tipo de elemento que pueda ser mejorado.

En la actualidad existen muchas ofertas de servicios basados en #MachineLearning, pero este tipo de análisis no nacieron con los servicios #cloud. Si es importante destacar que en la actualidad servicios como #Azure, #AWS y #GCP cuentan con herramientas de analítica que facilitan la recolección, limpieza y explotación de los datos, pero frameworks como #CRISP existen hace muchos años y es de vital importancia hacer uso de sus bondades, y aprovechar su ayuda para administrar los datos de una manera más estructurada.

Video Resumen

[popup_anything id=”2076″]

Tags aws, azure, cloud, CRISP, datamining, GCP, MachineLearning

54cuatro

MLOPS en Español: ¿que son las Feature Stores?

Post author By 54admin
Post date 30/11/2020
No hay comentarios en MLOPS en Español: ¿que son las Feature Stores?

Seguimos incrementando la informacion acerca de #MLOPS. En un primer post presentamos el concepto, y en un segundo post hablamos de PCS una metodología MLOPS made in Berkeley.

Este post esta dedicado a Cristian Cascon, un amigo de la casa, ingeniero de datos de Telecom Argentina y referente de la industria, quien nos alentó a escribir sobre los feature stores.
Gonzalo D’Angelo

MLOps es un derivado de DevOps implementado la idea de DevOps por medio de pipelines de aprendizaje automático. Ahora vamos a analizar un tema importante al momento de disponibilizar los datos a nuestros científicos de datos, los Features Stores.

¿Que son los Feature Stores?

Un feature store es nuestro “datawarehouse” de características, nuestra unidad central de almacenamiento de funciones documentadas, seleccionadas y con control de acceso que se pueden usar en muchos modelos diferentes, es decir, una biblioteca de software que contiene muchas funciones.

Un #FeatureStore es un componente crítico para cualquier proceso de aprendizaje automático, y donde mejores features significan mejores modelos y por tanto un mejor resultado comercial. A un FS se le ingestan datos de múltiples fuentes diferentes de la empresa con procesos de transformación, agregación y validación de datos.

Todo proyecto de ciencia de datos comienza con la búsqueda de las funciones adecuadas que resuelvan el requerimiento planteado.

El problema principalmente es que no existe un lugar único para buscar; las funciones están alojadas en todas partes, eso lleva a que generar características requiera de un gran esfuerzo, y un largo proceso de prueba y error.

Entonces, podemos decir que un FS proporciona un solo panel donde compartir todas las características disponibles, y no es solo una capa de datos, también es un servicio de transformación de datos que permite a los usuarios manipular datos sin procesar.

Gracias a un FS, el pipeline de Machine Learning o #MLOPS va a simplificarse y permitirá que un #datascientist optimice sus tiempos y realice trabajos de mayor calidad.

Cuando un científico de datos inicia un nuevo proyecto, puede ir a este catálogo y encontrar fácilmente las características que busca.

El almacén de características se implementa normalmente de 2 modos: online y offline

Funciones sin conexión: algunas funciones se calculan como parte de un trabajo por lotes. Por ejemplo, un caso de uso seria el análisis de gastos promedios. Se utilizan principalmente en procesos tipo batch. Dada su naturaleza, la creación de este tipo de funciones puede llevar tiempo. Por lo general, las características sin conexión se calculan a través de marcos como Spark o simplemente ejecutando consultas SQL en una base de datos determinada y luego utilizando un proceso de inferencia por lotes.

Funciones en línea: estas funciones son un poco más complicadas, ya que deben calcularse near-realtime y, a menudo, se ofrecen en una latencia de milisegundos. Por ejemplo, la detección de fraudes en tiempo real. En este caso, la tubería se construye calculando la media y la desviación estándar sobre una ventana deslizante en tiempo real. Estos cálculos son mucho más desafiantes y requieren un cálculo rápido, así como un acceso rápido a los datos. Los datos se pueden almacenar en memoria o en una base de datos de valores clave.

Esta imagen es excelente para diferencias ambos modos:

Imagen tomada de logicalclocks.com

Los científicos de datos están duplicando el trabajo porque no tienen una tienda de funciones centralizada. Todos con los que hablo realmente quieren construir o incluso comprar una tienda de características … si una organización tiene una tienda de características, el período de puesta en marcha [para los científicos de datos puede ser mucho más rápido].
Harish Dodi

Resumen

Los científicos de datos son uno de los principales usuarios de la Feature Stores. Usan un repositorio para realizar análisis de datos exploratorios.

Cuando los científicos de datos necesitan crear datos de entrenamiento o prueba con Python o cuando se necesitan características en línea (para entregar características a modelos en línea) con baja latencia, necesita una tienda de características. Del mismo modo, si desea detectar la derivación de features o datos, necesita soporte para calcular estadísticas de features e identificar la derivación.

Un Feature Store permite a los profesionales de datos de su empresa seguir un mismo flujo de trabajo en cualquier proyecto de #MachineLearning, independientemente de los desafíos que estén abordando (como clasificación y regresión, pronóstico de series de tiempo, etc.).

Otro beneficio es el ahorro de tiempo que genera ya que reduce el esfuerzo en el modelado donde se crean features, etapa que suele ser la mas costosa en tiempo.

El uso de un Feature Store hace que el proceso de creación de características sea mucho más ágil y eficiente, evitando trabajos repetitivos y siendo posible acceder fácilmente a una gran cantidad de datos que se necesitan para fines de modelado e investigación.

[popup_anything id=”2076″]

Tags datascientist, FeatureStore, MachineLearning, MLOps

54cuatro

¿Y ahora MLOPS?

Quienes nos siguen dirán, ¿Otro nuevo Ops en familia? Y si, tenemos que contarles sobre #MLOPS.

Repasemos. #DevOps conjuga la unión de los equipos de Desarrollo con Operaciones. #DataOps va acerca de la integración de datos en pos de soluciones analíticas. #GitOps nos ayuda a con el despliegue continuo sobre plataformas de contenedores. Y ahora nos toca describir MLOPS.

¿Que es MLOPS?

El nombre viene de la conjugación de Machine Learning y Operaciones. Y su filosofía gira en torno a lo mismo que sus familiares *Ops, la de generar un espacio colaborativo, en este caso entre Científicos de Datos y Operaciones. Es importante destacar que hace un tiempo se puso de moda el termino #AIOPS, pero esta mas orientado a una implementación de Inteligencia Artificial a las operaciones de TI, de manera que podria ser confundible con MLOPS.

Empecemos a descubrir MLOPS.

¿Que soluciona MLOPS?

MLOps es un descendiente directo de DevOps, y continuando con el éxito busca resolver la integración de los equipos de operaciones (en este caso quienes operan los datos) con aquellos que requieren de esa data para generar informacion de valor.

MLOps incorpora al juego a los científicos de datos, quienes requieren obtener conjuntos de datos de manera automatizada desde donde poder desarrollar sus modelos analíticos.

¿MLOPS requiere de un Pipeline?

Correcto, MLOPS tiene su propio concepto de Pipeline, solo que el CI/CD, esta orientado a integraciones de datos, y junto con ello, capacidades de gobernanza, transparencia y protección de la informacion.

En CI ademas de probar y validar código y componentes, se deben validar datos, esquemas y modelos.
En CD ademas de desplegar un paquete, debe implementar todo un servicio de manera automática.

En resumidas fases podriamos mencionar que MLOPS requiere de 4 pasos fundamentales:

Ingestar datos hacia un almacenamiento.
Procesar los datos almacenados.
Entregar esos datos para ser entrenados dentro de modelos de #MachineLearning.
Entregar el output del modelo, dependiendo el caso de negocio requerido.

Gartner on ML pipeline — Esquema MLOPS propuesto por Gartner

¿Como comienzo mi camino hacia MLOPS?

Es importante destacar que la comunidad que impulsa MLOPS crece dia a dia. Y ese crecimiento lleva a tener mas opciones que simplifican la adopción de MLOPS. Tanto #AWS, #GCP, #Azure, #IBM y otros proveedores tienen su propio stack tecnológico para hacer frente a una implementación de MLOPS, y como todo, no existe un método único, pero si buenas practicas recomendadas a seguir.

Para empezar, debemos crear una cultura de automatización.

El objetivo de MLOps es automatizar los pasos completos del flujo de trabajo de ML sin intervención manual. A partir de ello debemos dividir las tareas en fases que al final de la historia se ejecuten como un pipeline. Estas tareas son:

Adquirir los datos desde las fuentes que identifiquemos. Y dentro de esta fase de adquisición vamos a Catalogar los Datos, Ingestarlos a nuestro almacenamiento, Procesarlos para generar nuestra data correcta, y finalmente Entregarlos para su consumo.
Desarrollar los modelos. En esta fase (quizás la mas importante) un científico de datos generara interacciones con distintos modelos analíticos, validando la data recibida, e identificando la performance de los análisis. En caso de que la data recibida no sea suficiente o de la calidad esperada, el pipeline debe ser reajustado en el paso 1. Pero si los modelos tienen buenos rendimientos se pasara a la siguiente fase.
Despliegue de los modelos. Como mencionamos anteriormente, si un modelo tiene buenos rendimientos y sus outputs son confiables, esta listo para ser pasado a producción. Tener un modelo productivo permite integrarlo a nuestro software, dejar una API para consultas, alimentar un sistema, etc. Pero atención, el modelo requiere de cuidados, y es por eso que existe una ultima etapa.
Monitoreo de modelos. Como vamos a tener corriendo todo de forma automatizada, es importante monitorear como es la performance de los modelos. Cualquier desvio en la cantidad y/o calidad de los datos que se reciben pueden alterar el funcionamiento de nuestro desarrollo. Y es por eso que en un modelo MLOPS, vamos a determinar un control para conseguir que nuestro pipeline siempre asegura la entrega de información de valor para el negocio.

Conclusión final

Para ejecutar un proyecto exitoso basado en ciencia de datos es imprescindible implementar MLOps y para ello se debe llevar a cabo una orquestación de las herramientas tecnológicas con las habilidades para integrarlas.

Consultas?

[popup_anything id=”2076″]

Tags AIOPS, aws, azure, dataops, DevOps, GCP, GitOps, IBM, MachineLearning, MLOps

54cuatro

El valor de la Gobernanza

Post author By 54admin
Post date 11/10/2020
No hay comentarios en El valor de la Gobernanza

Ya nadie discute que los nuevos negocios dentro de las compañías, nacen aprovechando toda la informacion que guardaron estos años, y son esos datos los que permite crear nuevos productos, nuevos negocios, conocer mas a los clientes.

Pero también es necesario mencionar que se tiende a simplificar el “como” se usan esos datos. Los datos aportan valor si son confiables y de calidad, y para ello es necesario conocer su contenido y estructura.

En esta nota vamos a mencionar el camino recomendado para adoptar soluciones de #InteligenciaArtificial en la analítica partiendo desde una metodología de #gobernanza que asegure la calidad de los datos.

La fase de Recolección de Datos

El primer desafío es Recolectar la informacion que poseen las empresas, y en este sentido el desafío principal pasa por realizar una modernización de los procesos y flujos, para identificar todos aquellas bases de datos, tablas, archivos que tenemos a disposición para consumir esa informacion.

La fase de Organización de Datos

El segundo punto es Organizar esa informacion, generando un lenguaje común, para que todos los usuarios (de negocios y TI) conozcan todos los datos que estamos manejando, que exista una relación entre el lenguaje comercial y el lenguaje técnico; donde podamos generar Dueños de Datos. Estos Dueños de Datos (data stewardship) es lo que nos va a permitir la gestión y supervisión de los activos de datos de nuestra organización para ayudar a proporcionar a los usuarios comerciales datos de alta calidad.

Estos niveles de calidad son fundamentales si queremos tener reportes fidedignos; y por tal motivo vamos a correr procesos de Curación, Gestión de Metadatos, Linaje y Catalogo, entre otros procesos que serán los que dejaran lista una base de datos lista para el negocio.

La fase de Análisis de Datos

La fase de Organización nos va a permitir saltar a la fase de Análisis, donde vamos a poder armar #Dashboards y #Reportes desde informacion confiable, y eso se va a permitir:

Encontrar: Acceso mas rápido a la informacion
Confiar: Entender de donde provienen los datos y porque se puede confiar en ellos
Preparar: Limpiar, estructurar y enriquecer datos crudos para transformarlos en informacion procesada
Actuar: Generar nuevos resultados comerciales desde Análisis mas confiables.

Infundir: la capa de análisis inteligente

Luego de haber creado una plataforma de integración robusta, de tener identificado nuestros datos como activos y de generar reportes confiables, vamos a implementar una capa de Analítica Avanzada, donde logremos descubrir tendencias y patrones que mejoren la toma de decisiones mediante técnicas de exploración cognitiva.

En este punto soluciones de #MachineLearning logran destrabar el valor de los datos, permitiendo generar nuevos productos basados en el reconocimiento 360° de los clientes, detectar necesidades de la industria o simplemente lograr identificar cosas que siempre estuvieron invisibles a un análisis tradicional.

Que arquitecturas nos proponen los vendors?

Existe un consenso de la industria en torno al armado de arquitecturas de datos en distintas capas. La gran mayoría son plasmadas en gráficos que se pueden “leer” de izquierda a derecha, conformados por:

Capa Fuentes de Datos: donde contamos con los orígenes de datos, estos orígenes pueden ser bases de datos, webs, archivos, eventos, sensores, etc.
Capa de Integración: desde donde se efectúa el comportamiento relacionado a la orquestación del movimiento, transformación e ingesta de los datos.
Capa de Procesamiento: donde se ejecutan los procesos analíticos, ya sea en cubos.
Capa de Visualización: donde finalmente se presentan de forma amigable lo referido a reportes de cara a los usuarios.

A continuación veamos algunos esquemas de alto nivel que proponen #IBM y #Microsoft.

Arquitectura de Data provisto por IBM

Arquitectura de Data provisto por Microsoft en Azure

Conclusiones finales

Las tecnologías de análisis están al alcance de la mano de todos. En los últimos años, el crecimiento de la generación de datos es exponencial y lo seguirá siendo; y en paralelo las tecnologías cloud generaron una disminución en el costo del storage, mayor procesamiento, consumo “por uso” y aplicaciones apilables que nos permiten desarrollar una plataforma en la nube con muy poco esfuerzo.

Pero el mayor valor de una plataforma de datos no esta dado por la tecnología sino por los requerimientos de negocios que resolvemos.

Desde #54cuatro alentamos a nuestros clientes a convertirse en empresas inspiradas por los datos, donde la informacion sea un catalizador de nuevas ideas; y es por eso que no hacemos recomendaciones tecnológicas sin entender los requisitos, porque nosotros ofrecemos practicas y metodologías de gestión de datos (que entre otras cosas incluye el factor tecnológico) donde el mayor valor del análisis se da cuando se gestiona la informacion como un asset y donde la calidad asegura que los reportes mejoren la toma de decisiones, el servicio al cliente y el ROI.

[popup_anything id=”2076″]

Tags Dashboards, gobernanza, IBM, InteligenciaArtificial, MachineLearning, Microsoft, Reportes