Categories
54cuatro

MLOPS en Español: ¿que son las Feature Stores?

Seguimos incrementando la informacion acerca de #MLOPS. En un primer post presentamos el concepto, y en un segundo post hablamos de PCS una metodología MLOPS made in Berkeley.

Este post esta dedicado a Cristian Cascon, un amigo de la casa, ingeniero de datos de Telecom Argentina y referente de la industria, quien nos alentó a escribir sobre los feature stores.

Gonzalo D’Angelo

MLOps es un derivado de DevOps implementado la idea de DevOps por medio de pipelines de aprendizaje automático. Ahora vamos a analizar un tema importante al momento de disponibilizar los datos a nuestros científicos de datos, los Features Stores.

¿Que son los Feature Stores?

Un feature store es nuestro “datawarehouse” de características, nuestra unidad central de almacenamiento de funciones documentadas, seleccionadas y con control de acceso que se pueden usar en muchos modelos diferentes, es decir, una biblioteca de software que contiene muchas funciones.

Un #FeatureStore es un componente crítico para cualquier proceso de aprendizaje automático, y donde mejores features significan mejores modelos y por tanto un mejor resultado comercial. A un FS se le ingestan datos de múltiples fuentes diferentes de la empresa con procesos de transformación, agregación y validación de datos.

Todo proyecto de ciencia de datos comienza con la búsqueda de las funciones adecuadas que resuelvan el requerimiento planteado.

El problema principalmente es que no existe un lugar único para buscar; las funciones están alojadas en todas partes, eso lleva a que generar características requiera de un gran esfuerzo, y un largo proceso de prueba y error.

Entonces, podemos decir que un FS proporciona un solo panel donde compartir todas las características disponibles, y no es solo una capa de datos, también es un servicio de transformación de datos que permite a los usuarios manipular datos sin procesar.

Gracias a un FS, el pipeline de Machine Learning o #MLOPS va a simplificarse y permitirá que un #datascientist optimice sus tiempos y realice trabajos de mayor calidad.

Cuando un científico de datos inicia un nuevo proyecto, puede ir a este catálogo y encontrar fácilmente las características que busca.

El almacén de características se implementa normalmente de 2 modos: online y offline

Funciones sin conexión: algunas funciones se calculan como parte de un trabajo por lotes. Por ejemplo, un caso de uso seria el análisis de gastos promedios. Se utilizan principalmente en procesos tipo batch. Dada su naturaleza, la creación de este tipo de funciones puede llevar tiempo. Por lo general, las características sin conexión se calculan a través de marcos como Spark o simplemente ejecutando consultas SQL en una base de datos determinada y luego utilizando un proceso de inferencia por lotes.

Funciones en línea: estas funciones son un poco más complicadas, ya que deben calcularse near-realtime y, a menudo, se ofrecen en una latencia de milisegundos. Por ejemplo, la detección de fraudes en tiempo real. En este caso, la tubería se construye calculando la media y la desviación estándar sobre una ventana deslizante en tiempo real. Estos cálculos son mucho más desafiantes y requieren un cálculo rápido, así como un acceso rápido a los datos. Los datos se pueden almacenar en memoria o en una base de datos de valores clave.

Esta imagen es excelente para diferencias ambos modos:

Imagen tomada de logicalclocks.com

Los científicos de datos están duplicando el trabajo porque no tienen una tienda de funciones centralizada. Todos con los que hablo realmente quieren construir o incluso comprar una tienda de características … si una organización tiene una tienda de características, el período de puesta en marcha [para los científicos de datos puede ser mucho más rápido].

Harish Dodi

Resumen

Los científicos de datos son uno de los principales usuarios de la Feature Stores. Usan un repositorio para realizar análisis de datos exploratorios.

Cuando los científicos de datos necesitan crear datos de entrenamiento o prueba con Python o cuando se necesitan características en línea (para entregar características a modelos en línea) con baja latencia, necesita una tienda de características. Del mismo modo, si desea detectar la derivación de features o datos, necesita soporte para calcular estadísticas de features e identificar la derivación.

Un Feature Store permite a los profesionales de datos de su empresa seguir un mismo flujo de trabajo en cualquier proyecto de #MachineLearning, independientemente de los desafíos que estén abordando (como clasificación y regresión, pronóstico de series de tiempo, etc.). 

Otro beneficio es el ahorro de tiempo que genera ya que reduce el esfuerzo en el modelado donde se crean features, etapa que suele ser la mas costosa en tiempo.

El uso de un Feature Store hace que el proceso de creación de características sea mucho más ágil y eficiente, evitando trabajos repetitivos y siendo posible acceder fácilmente a una gran cantidad de datos que se necesitan para fines de modelado e investigación.


[popup_anything id=”2076″]
Categories
54cuatro-EN

What DataOps solves

We already made entries of #DataOps (data operations), but to refresh the memory we say: it is the combination of people, processes and technology that allow us to handle data that is useful for #developers, #datascientist, #operations, applications and tools (eg #artificial #intelligence) , allowing to channel the data, keep them safe during their life cycle and configure a #governance over them.

The faster we manipulate and deliver the data, the faster the #growth for the business will be due to the use of the information, therefore, its objective is to promote data management practices and procedures that improve the speed and accuracy of the analysis.

The idea of ​​this post is to make a short-list with 5 basic problems that are solved with the implementation of DataOps in an organization.

Let’s see what DataOps solves:

#Bug fixes: In addition to improving the agility of development processes, DataOps has the power to boost time to respond to errors and defects by significantly reducing times.

#Efficiency: in DataOps, data specialists and developers work together and, therefore, the flow of information is horizontal. Instead of comparing information in weekly or monthly meetings, the exchange occurs regularly, which significantly improves communication efficiency and the final results.

#Objectives: DataOps provides developers and specialists in real-time data on the performance of their systems.

#DataSilos: DataOps faces the data silos that are generated in different departments or management of a company, many groups see their operations as inviolable “fifths” in which each silo is a barrier to success to implement better management strategies of data. The implementation of a correct governance is crucial for obtaining all the data sources that the organization requires to meet its business objectives.

#Skills: It is a fact that data professionals do not abound. The lack of availability of the right people to manage #BigData & #BI projects means that the projects are not executed in a timely manner, or worse, that they fail. It is a mistake to put more data on a computer that does not have the knowledge and resources to handle it.

We invite you to join our Linkedin Group of “DataOps in Spanish”

[popup_anything id=”2095″]

Categories
54cuatro

Que soluciona DataOps

Ya hicimos entradas de #DataOps (operaciones de datos), pero para refrescar la memoria decimos: es la conjunción de personas, procesos y tecnología que permiten manejar datos que sean de utilidad para #desarrolladores, #datascientist, #operaciones, #aplicaciones y herramientas (ej #inteligencia #artificial), permitiendo canalizar los datos, mantenerlos seguros durante su ciclo de vida y configurar una #gobernanza sobre los mismos.

Mientras mas rapido manipulemos y entreguemos los datos, mas rápido sera el crecimiento para el negocio por el uso de la informacion, por lo tanto, su objetivo es promover prácticas y procedimientos de gestión de datos que mejoren la velocidad y precisión de los análisis.

Short-list con 5 problemáticas básicas que son resueltas con la implementación de DataOps en una organización.

Veamos que nos resuelve DataOps:

#Corrección de errores: además de mejorar la agilidad de los procesos de desarrollo, DataOps tiene el poder de impulsar el tiempo para responder a errores y defectos reduciendo los tiempos significativamente.

#Eficiencia: en DataOps, los especialistas de datos y los desarrolladores trabajan juntos y, por lo tanto, el flujo de información es horizontal. En lugar de comparar información en reuniones semanales o mensuales, el intercambio ocurre regularmente, lo que mejora significativamente la eficiencia comunicacional y los resultados finales.

#Objetivos: DataOps proporciona a desarrolladores y especialistas en datos en tiempo real sobre el rendimiento de sus sistemas.

#Silos de datos : DataOps enfrenta a los silos de datos que se generan en distintos departamentos o gerencias de una empresa, muchos grupos ven sus operaciones como “quintas” inviolables en las cuales cada silo es una barrera para el éxito para implementar mejores estrategias de administración de datos. La implementación de un governance correcto es crucial para la obtención de todas las fuentes de datos que requiere la organización para cumplir con sus objetivos de negocios.

#Skills: es un hecho que los profesionales de datos no abundan. La falta de disponibilidad de las personas adecuadas para administrar proyectos de #BigData y #BI (#BusinessAnalytics) significa que los proyectos no sean ejecutados en tiempo y forma, o peor aun, que fallen. Es un error poner más datos en un equipo que no tiene el conocimiento y los recursos para manejarlos.

Vea nuestro workshop de DataOps

Los invitamos a unirse a nuestro Grupo en Linkedin de “DataOps en Español

[popup_anything id=”2076″]

Categories
54cuatro

El triatlon y su relación con el mercado laboral de IT

Hace unos años atrás los triatletas no eran #triatletas de nacimiento. Para los que no saben, el triatlon como deporte es relativamente joven. El #triatlon #Ironman, nació en 1978, del desafío acerca de sus cualidades como atletas de un #nadador, un #ciclista y un #maratonista. Y la International Triathlon Union que regula el triatlon olímpico fue fundada en 1989. Hasta hace poco tiempo, las competencias eran ganadas por ex nadadores devenidos en triatletas, ex ciclistas devenidos en triatletas o ex maratonistas devenidos en triatletas.

Gonzalo D’Angelo – CTO de 54cuatro y 3x Ironman


Con el pasar de los años naciendo deportistas formados como triatletas desde su infancia. Su fortaleza no reside en nadar, en pedalear o en correr, de forma individual, sino en ejecutar las 3 disciplinas de forma eficaz, permitiendo generar marcas asombrosas en cada carrera.
Y porque esta introducción? En la tecnología esta pasando algo similar. Ex sysadmins devenidos en #DevOps. Ex administradores de storage transformados en Cloud Specialist. Ex #DBA que mutaron a roles de #BigData. Ni que hablar de los programadores. Con el auge de #Python y #R, muchos fueron variando sus perfiles hacia este lenguaje.


Todos sabemos el déficit de profesionales de IT, pero también sabemos que es necesario lograr perfiles de especialistas en poco tiempo. La industria de los videojuegos crece YoY de manera sustancial, una demanda que crece por muchos sobre la oferta de recursos. De igual manera, la industria basada en datos, crece al ritmo de la generación de datos. Las necesidades de recursos como #DataEngineers y #DataScientist son cada vez mayores. Incluso gracias al auge del análisis de informacion, se han sumado al IT tradicional muchos especialistas en estadísticas (desde matemáticos hasta economistas) que han logrado aportar un gran valor a la generación de algoritmos.

Ni que hablar la unión de los mundos físicos y lógicos, que vienen de la mano de las tecnologías 4.0. Electrónica, Robótica, Seguridad Informática, Desarrollo, Análisis de datos. Lo que hasta hace poco eran actividades con algunos puntos de contacto hoy son un subconjunto en el marco de la revolución 4.0.

Industria 4.0 (Monty Rakusen / Getty)

Entidades como el #ITBA o #DigitalHouse vienen haciendo un trabajo estupendo, aggiornando su curricula, desarrollando programas específicos, pero es necesario habilitar de forma inmediata la especialización de la formación desde etapas tempranas para generar nuevos Ingenieros, con dotes de #Desarrolladores, #Ingenieros y Cientistas de Datos, Especialistas de Seguridad, ligados de forma temprana a Ingenieros eléctricos, civiles, en robótica, para que las industrias puedan lograr cubrir la demanda de profesionales; y porque no también pensar en Ingenieros en Videojuegos o en Industria 4.0.

[popup_anything id=”2076″]