Etiqueta: dataops

Cómo DataOps ayuda a las organizaciones a tomar mejores decisiones

Post author By 54admin
Post date 24/08/2022

DataOps es un enfoque ágil que combina la ingeniería de datos en los procesos de operaciones. Su objetivo es crear valor comercial a partir de big data, promoviendo prácticas y procedimientos de gestión de datos que mejoren la velocidad y precisión de los análisis. Esto incluye automatización, acceso a datos, integración, control de calidad e implementación y gestión de modelos.

Los problemas resueltos por DataOps

Los principios fundamentales de #DataOps son simples. La disciplina está formada por la metodología ágil y se esfuerza por integrar análisis de datos continuos y en tiempo real en el proceso DevOps. En la práctica, significa incorporar DevOps y personal de gestión de datos en un equipo colaborativo.

Los equipos de DataOps valoran los análisis que funcionan y determinan el rendimiento del análisis de datos por los conocimientos que ofrecen. Aquí enumeramos algunos de los problemas que DataOps resuelve:

Corrección de errores: además de mejorar la agilidad de los procesos de desarrollo, DataOps tiene el poder de impulsar el proceso de gestión de incidentes. Es probable que la reparación de errores y defectos en los productos incluya aportes de expertos en datos y desarrollo, y también es una función comercial esencial. Con una mejor comunicación y colaboración entre grupos, el tiempo para responder a errores y defectos se reduce drásticamente.

Eficiencia: en DataOps, los equipos de datos y de desarrollo trabajan juntos y, por lo tanto, el flujo de información es horizontal. En lugar de comparar información en reuniones mensuales, el intercambio ocurre regularmente, lo que mejora significativamente la eficiencia de la organización.

Establecimiento de objetivos: DataOps proporciona a los equipos de desarrollo y administración, datos en tiempo real sobre el rendimiento de sus sistemas de datos. Dichos datos no son útiles para monitorear el éxito en relación con cualquier objetivo comercial. Sin embargo, si los procesos de negocios son los adecuados, los datos permiten a los gerentes ajustar y actualizar los objetivos de desempeño en tiempo real.

Colaboración limitada: implementar flujos de trabajo de DataOps significa aumentar la colaboración entre los equipos centrados en los datos y los equipos centrados en el desarrollo. DataOps también tiene como objetivo eliminar las diferencias entre estas dos funciones comerciales.

Respuesta lenta: uno de los desafíos más destacados que enfrentan las organizaciones hoy en día es responder a las solicitudes de desarrollo, tanto de los usuarios como de la alta dirección. En general, las solicitudes para integrar nuevas funciones incluyen los mismos reclamos que se envían hacia adelante y hacia atrás entre los científicos de datos y el equipo de desarrollo.

Como el equipo de DataOps involucra ambas funciones, el personal puede trabajar en conjunto en nuevas solicitudes. Permite que el equipo de desarrollo sea testigo del efecto que tienen las funciones originales en el flujo de datos a través de la organización. Además, ayuda a los equipos de datos a concentrarse mejor en procesar los objetivos reales de la organización.

Desafíos que enfrenta DataOps

Es un hecho que más datos significan más dependencias, más puntos de falla y administración. Entonces, ¿cuáles son los desafíos que enfrentan los equipos de DataOps?

The Difference Between Operational and Analytical Data Systems

Silos de datos: DataOps necesita hacer frente a los silos de datos que se crean como diferentes departamentos, y los equipos crean grupos de datos con procesos individualizados y estrechamente optimizados. Muchos grupos ven sus operaciones como inviolables en las que cada silo es una barrera hacia el éxito para implementar mejores estrategias de gestión de datos en toda la organización.

Falta de uso de la nube: la mayoría de los expertos en tecnología han entendido los beneficios que ofrece la nube. Sin embargo, aún así, muchas organizaciones no almacenan sus aplicaciones en la nube. Como resultado, los equipos de DataOps están sobrecargados con aplicaciones de datos que requieren más servidores de almacenamiento y grupos reconfigurados para garantizar la optimización de la base de datos.

Falta de habilidades: es un hecho que los profesionales de datos de todo tipo son escasos en el mercado tecnológico. La falta de disponibilidad de las personas adecuadas para administrar proyectos de Big Data significa que los proyectos no se ejecutan rápidamente o es probable que fracasen. Por lo tanto, poner más datos en un equipo que no tiene el conocimiento y los recursos para manejarlos es una forma de fallar.

¿Qué es un marco de DataOps?

El marco DataOps consta de cinco elementos esenciales y distintos. Los elementos son:

1.Tecnologías habilitadoras

Estas tecnologías incluyen inteligencia artificial (IA), aprendizaje automático (ML), herramientas de gestión de datos y automatización de TI.

2. Arquitectura adaptativa

La arquitectura adaptativa admite innovaciones continuas en los principales procesos, servicios y tecnologías.

3. Enriquecimiento de datos

Estos datos son metadatos inteligentes creados por el sistema y colocados en un contexto útil para un análisis oportuno y preciso.

4. Metodología DataOps

Esta metodología implica construir e implementar análisis de datos, siguiendo la gestión de su modelo y el gobierno de datos.

5.Gente y Cultura

Debe crear una cultura colaborativa entre las diferentes áreas de tecnología y el negocio. Esta cultura ayuda a poner la información correcta en el lugar correcto en el momento correcto para maximizar el valor de su organización.

¿Cuál es la diferencia entre DataOps y DevOps?

Tags dataops

54cuatro

¿Que es Hadoop como Servicio?

Post author By 54admin
Post date 19/06/2021

Hadoop es un proyecto Open Source de la fundación Apache, y que se fue transformando en sinónimo de Big Data.

Pero la administración de los clusters, sumado a los grandes costos asociados a hardware y licenciamiento, fueron potenciando el concepto de HadoopAsAService (#HDaaS) como una plataforma lista para usar en soluciones de #BigData basadas en #Hadoop.

Los principales proveedores de servicios Hadoop fueron Cloudera y Hortonworks, hoy unificados bajo una misma empresa. Actualmente los proveedores de nube son algunos proveedores de servicios desafiantes, como Amazon Web Service con EMR, Microsoft con HDInsights sobre Azure o IBM con BigInsight; y que permiten a los usuarios crear cluster según sus necesidades de una manera muy simple, autoadministrable y con costos muy convenientes que permiten lograr un rápido TCO.

Diferencias entre un ambiente on-premise contra uno Cloud

Como mencionamos, mantener Hadoop on-premise conlleva la gestión de la infraestructura, la performance de Hadoop, la configuración, el aprovisionamiento y la disponibilidad. Todas estas tareas son difíciles y costosas de mantener. Respecto a Hadoop en la nube, existen grandes ventajas que están llevando a las empresas a migrar sus cargas de trabajo, entre estos beneficios, podemos enumerar:

Facilidad de implementación al generarse ambientes con muy pocos clicks.
Simplifica la administración al permitir a los usuarios redimensionar, agregar o quitar servidores según se necesite.
Mayor simpleza en las actualizaciones de versiones.

Estos beneficios dan como resultado una marcada reducción en el costo de la innovación, y recordemos que en el mundo de los datos, este beneficio es significativo en cuanto al aporte de valor que los datos generar sobre las utilidades de las compañías.

Optimización de Costos

En entornos de Big Data, un científico de datos pasa la mayor parte del tiempo dedicado a la preparación de datos, a través de herramientas como Pig o Hive y otras herramientas destinadas a ciencia de datos, de manera que la optimización de las operaciones de cómputo sin muchas demoras para implementar clústeres de Hadoop, cargar datos y procesar los grandes volúmenes de datos dan como resultado una mayor rentabilidad en el tiempo de los científicos (que por cierto no son nada baratos) conllevando a un mejor ROI proveniente de los análisis efectuados por ellos.

Look After Your IT Assets for Cost Reduction & Estate Optimization | Ivanti

En cuanto a la operación existen ahorros significativos respecto a los gastos de mantenimiento, dado que los entornos HDaaS garantizan una plataforma Hadoop disponible, con un nivel de parcheado up2date, con escalado automático, lo que reduce los costos de mantenimiento al delegar el mantenimiento en el proveedor de nube seleccionado. Adicionalmente, los grandes vendors cloud, brindan excelentes herramientas de monitoreo que permiten un exhausto control de disponibilidad y performance sobre la plataforma donde estamos operando.

Beneficios adicionales

Vale destacar que nuestra plataforma por si sola no va a generar buenos resultados. Necesitamos de todo un ecosistema de herramientas para la integración y procesamiento de datos. Las plataformas de nube tienen completamente resuelto ese tema al brindar soluciones Hadoop con sus propios productos basados en Hive, Pig, MapReduce, Presto, Oozie, Spark y Sqoop. Además ofrecen herramientas tipo conectores para la integración de datos y la creación de pipelines #dataops que garantizan un flujo automatizado y simplificado para todo el ciclo de vida de la información. En el caso de Azure, existen herramientas como DataFactory, Synapse y Databricks que son una navaja suiza para plataformas de Big Data, se integran de forma nativa, muy simple de implementar y mantener.

Conclusión

Es posible que las empresas aún necesiten tiempo para reemplazar las inversiones que hicieron en sus plataformas de datos existentes, pero sin dudas que el crecimiento del mercado de Hadoop-as-a-service obligará a las organizaciones a considerar las migraciones hacia la nube.

Tags BigData, dataops, Hadoop, HDaaS

54cuatro

¿Y ahora MLOPS?

Quienes nos siguen dirán, ¿Otro nuevo Ops en familia? Y si, tenemos que contarles sobre #MLOPS.

Repasemos. #DevOps conjuga la unión de los equipos de Desarrollo con Operaciones. #DataOps va acerca de la integración de datos en pos de soluciones analíticas. #GitOps nos ayuda a con el despliegue continuo sobre plataformas de contenedores. Y ahora nos toca describir MLOPS.

¿Que es MLOPS?

El nombre viene de la conjugación de Machine Learning y Operaciones. Y su filosofía gira en torno a lo mismo que sus familiares *Ops, la de generar un espacio colaborativo, en este caso entre Científicos de Datos y Operaciones. Es importante destacar que hace un tiempo se puso de moda el termino #AIOPS, pero esta mas orientado a una implementación de Inteligencia Artificial a las operaciones de TI, de manera que podria ser confundible con MLOPS.

Empecemos a descubrir MLOPS.

¿Que soluciona MLOPS?

MLOps es un descendiente directo de DevOps, y continuando con el éxito busca resolver la integración de los equipos de operaciones (en este caso quienes operan los datos) con aquellos que requieren de esa data para generar informacion de valor.

MLOps incorpora al juego a los científicos de datos, quienes requieren obtener conjuntos de datos de manera automatizada desde donde poder desarrollar sus modelos analíticos.

¿MLOPS requiere de un Pipeline?

Correcto, MLOPS tiene su propio concepto de Pipeline, solo que el CI/CD, esta orientado a integraciones de datos, y junto con ello, capacidades de gobernanza, transparencia y protección de la informacion.

En CI ademas de probar y validar código y componentes, se deben validar datos, esquemas y modelos.
En CD ademas de desplegar un paquete, debe implementar todo un servicio de manera automática.

En resumidas fases podriamos mencionar que MLOPS requiere de 4 pasos fundamentales:

Ingestar datos hacia un almacenamiento.
Procesar los datos almacenados.
Entregar esos datos para ser entrenados dentro de modelos de #MachineLearning.
Entregar el output del modelo, dependiendo el caso de negocio requerido.

Gartner on ML pipeline — Esquema MLOPS propuesto por Gartner

¿Como comienzo mi camino hacia MLOPS?

Es importante destacar que la comunidad que impulsa MLOPS crece dia a dia. Y ese crecimiento lleva a tener mas opciones que simplifican la adopción de MLOPS. Tanto #AWS, #GCP, #Azure, #IBM y otros proveedores tienen su propio stack tecnológico para hacer frente a una implementación de MLOPS, y como todo, no existe un método único, pero si buenas practicas recomendadas a seguir.

Para empezar, debemos crear una cultura de automatización.

El objetivo de MLOps es automatizar los pasos completos del flujo de trabajo de ML sin intervención manual. A partir de ello debemos dividir las tareas en fases que al final de la historia se ejecuten como un pipeline. Estas tareas son:

Adquirir los datos desde las fuentes que identifiquemos. Y dentro de esta fase de adquisición vamos a Catalogar los Datos, Ingestarlos a nuestro almacenamiento, Procesarlos para generar nuestra data correcta, y finalmente Entregarlos para su consumo.
Desarrollar los modelos. En esta fase (quizás la mas importante) un científico de datos generara interacciones con distintos modelos analíticos, validando la data recibida, e identificando la performance de los análisis. En caso de que la data recibida no sea suficiente o de la calidad esperada, el pipeline debe ser reajustado en el paso 1. Pero si los modelos tienen buenos rendimientos se pasara a la siguiente fase.
Despliegue de los modelos. Como mencionamos anteriormente, si un modelo tiene buenos rendimientos y sus outputs son confiables, esta listo para ser pasado a producción. Tener un modelo productivo permite integrarlo a nuestro software, dejar una API para consultas, alimentar un sistema, etc. Pero atención, el modelo requiere de cuidados, y es por eso que existe una ultima etapa.
Monitoreo de modelos. Como vamos a tener corriendo todo de forma automatizada, es importante monitorear como es la performance de los modelos. Cualquier desvio en la cantidad y/o calidad de los datos que se reciben pueden alterar el funcionamiento de nuestro desarrollo. Y es por eso que en un modelo MLOPS, vamos a determinar un control para conseguir que nuestro pipeline siempre asegura la entrega de información de valor para el negocio.

Conclusión final

Para ejecutar un proyecto exitoso basado en ciencia de datos es imprescindible implementar MLOps y para ello se debe llevar a cabo una orquestación de las herramientas tecnológicas con las habilidades para integrarlas.

Consultas?

[popup_anything id=”2076″]

Tags AIOPS, aws, azure, dataops, DevOps, GCP, GitOps, IBM, MachineLearning, MLOps

54cuatro

Porque utilizar un Datalake?

Post author By 54admin
Post date 12/07/2020
No hay comentarios en Porque utilizar un Datalake?

Hace un tiempo compartimos un vídeo diferenciando un datalake de un datawarehouse. Pueden verlo aquí.

También venimos impulsando la adopción de #DataOps como metodología para trabajar nuestros datos. Pero en esta nota queremos hacer hincapié en los lagos de datos, tan de moda en estos momentos.

¿Porque Utilizar un Lago de datos?

Un lago de datos es un depósito de almacenamiento que contiene datos “crudos”. Esto quiere decir que son almacenados en su formato nativo hasta que sean requeridos.

De esta manera, es de vital importancia resguardar estos datos dado que:

Todos los datos tienen un valor potencial.
La acumulación de datos permite que se vayan enriqueciendo los reportes y análisis que se vayan a realizar en un futuro.
Los datos se guardan sin un esquema definido, de manera que almacenarlos en su formato nativo no conlleva mucho esfuerzo.
Los esquemas son establecidos y las transformaciones son hechas al momento de la consulta.
Las aplicaciones y los usuarios interpretan los datos cuando los consideran necesario.

El reto es combinar datos transaccionales almacenados en bases de datos relacionales con datos menos estructurados, para poder servir los datos correctos a las personas correctas en el momento correcto en el formato correcto

Zonas de un lago de datos

Dentro de un datalake, existen zonas.

Zona Datos Crudos

Extracción de una copia del origen de datos en su formato nativo
Inmutable al cambio
Retención histórica de manera indefinida.
Acceso a datos limitado a unas cuantas personas.
A partir de ellos es posible regenerar cualquier proceso de transformación o analítico.

Zona Temporal

Utilizada de manera selectiva
Separación de “datos nuevos” de “datos sin procesar” para garantizar la coherencia de los datos
Datos transitorios de baja latencia (Speed Layer)
Validaciones de calidad de datos.

Zona de Datos Maestros

Datos de Referencia

Zona de Entrega de Usuario

Datos generados manualmente

Zona de Preparación de Datos

Zona de preparación para un propósito o aplicación particular .

Zona de estandarización de Datos Crudos

Datos crudos que varían en formato o esquema, como por ejemplo JSON que son estandarizados en columnas y renglones.

Zona de Archivo de datos

Archivo activo basado en políticas de tiempo asociadas a los datos, manteniéndolos disponibles para su consulta en caso de que se requiera.

Sandbox Analítico

Lugar de trabajo para la exploración de datos, ciencia de datos y analítica.

Zona de Entrega de Usuario

Datos generados manualmente (XLS, DOC, PDF, etc)

Zona de Preparación de Datos

Zona de preparación para un propósito o aplicación particular .
Los procesos que lo ameriten pueden ser promovidos a la zona de datos curados.

Zona de Datos Curados

Datos limpios y transformados, organizados para su optima entrega.
Soporta esquemas de autoservicio.
Seguridad estandarizada, gestión del cambio y gobierno.

En base al detalle explicado mas arriba, es necesario identificar las capas de un datalake, y realizar un modelo de gobernanza para que un lago de datos no se convierta en un pantano.

Governance? Que es?

El gobierno de datos refiere a la administración de los sistemas de datos, incluyendo, la organización, procesos, procedimientos, administración, responsabilidades, compliance y documentación de los sistemas de datos dentro de las organizaciones.

Existe una metodología llamada DAMA, una organización que gestiona un manual de buenas prácticas, el DMBoK (similar al PMBok del PMP Institute) que permite establecer lineamientos para el Data Governance, tal como se ve en la siguiente figura:

En una entrada posterior exploraremos en profundidad el tema governance, incluyendo herramientas para gestionarlo.

Pero continuando con el tema #Datalake….

Casos de Uso Datalake

Experimentos de Ciencia de datos

Soluciones aisladas para la preparación inicial de datos, experimentación y análisis.
Migración de prueba de concepto a la solución operativa.
Se integra con proyectos de código abierto como Hive, Pig, Spark, Storm, etc.

Área de preparación de datos en el Data Warehouse

Estrategia ETL.
Reduce la necesidad de almacenamiento en una Plataforma relacional al utilizar el lago de datos como un área de preparación de datos.
Uso practico de datos almacenados en lago de datos
Aplicación de transformaciones de datos en el lago de datos.

Esto son solo 2 casos de usos de utilidad, pero lógicamente existen múltiples usos validos para un datalake. Así también, existen un sinfín de arquitecturas posibles para el armado de un datalake, junto con una gran cantidad de herramientas, modelos y procesos disponibles. El armado de un lago de datos, requiere de un entendimiento previo del objetivo final, el conocimiento de la organización y posteriormente el planeamiento del despliegue.

En #54cuatro, somos una consultora especializada en la gestión de datos y partner #DataPlatform Gold de Microsoft. Vea nuestro perfil en Microsoft Partners.

[popup_anything id=”2076″]

Tags datalake, dataops, DataPlatform

54cuatro

Las diferentes etapas de la gestión de datos

Post author By 54admin
Post date 25/04/2020
No hay comentarios en Las diferentes etapas de la gestión de datos

Actualmente mucho se habla de #BigData y #DataScience, y sus beneficios. Pero es importante destacar que la informacion es algo común en todas las empresas, que los Reportes y Dashboards existen hace mucho tiempo y que no es necesario realizar inversiones grandes para sacar valor de nuestros datos. Actualmente se menciona el uso de la informacion como el “petroleo” de las compañías a raíz del gran valor que se obtiene, pero mas allá de una cuestión tecnológica una estrategia de datos requiere coordinación de distintas áreas, desde los sectores de negocios, hasta los sectores técnicos. En #54cuatro tenemos una metodología propia de gestión, basada en #DataOps para realizar acciones conjuntas entre sectores para lograr los objetivos de negocios planteados.

Infografía

Analisis de Datos — Las diferentes etapas en la **Gestión de Datos**. *Clic para ver la imagen completa*

Marco metodológico

Cuando iniciamos una consultoría basada en datos, es preciso identificar el tipo de proyecto, basado en el resultado esperado. No es el mismo abordaje el que se realiza en un proyecto basado en la búsqueda de ahorros operativos que un proyecto que busque monetizar los datos. Tampoco es igual un cliente de la industria manufacturera que un cliente de retail electrónico. Es por tal motivo que en #54cuatro trabajamos las necesidades de negocio ante una metodología propia de análisis.

Antes de abordar un proyecto de datos, debemos recordar que no es lo mismo definir Estrategia, Táctica y Técnica, y que el resultado exitoso dependerá en gran parte del planeamiento Estratégico, que contenga la Táctica y la Técnica para dar con el resultado propuesto.

1) En la Estrategia debemos definir aquellos elementos que seran necesarios para alcanzar un objetivo propuesto.

2) En la Táctica definimos propiamente el método utilizado a fin de dar con objetivo.

3) Y la Técnica es la forma de utilizar los recursos de manera eficiente para cumplir con lo propuesto.

A partir de esto es que nuestra metodología busca:

Entender los requisitos de negocios, ya que son el paso fundamental de todo proyecto, y para esta fase, un analista de negocios asignado debe ser especialista en la Industria/Rubro del cliente.
A partir de conocer que se busca, se plantean los objetivos, y como se alinearan las estrategias de negocios con las tácticas y técnicas para lograr los resultados.
Finalmente se desarrollaran tecnológicamente todas las soluciones que nos acerquen al objetivo.
Y finalmente serán presentados resultados con el fin de determinar el nivel de cumplimiento con lo buscado originalmente.

La presentación de resultados

Esta etapa es tan importante que podría hacerse una nota completa para esto. Saber comunicar los resultados es vital en todo proyectos de datos. Es necesario poder identificar la forma en que se mostraran resultados operativos, KPI, reportes, métricas, alarmas, etc. También es una condición fundamental lograr interpretar el publico al que dirigimos nuestra información, y poder saber cuando corresponde enviar un archivo, cuando podemos crear un tablero de #BI, o cuando necesitamos comunicar de otras maneras, ya sea haciendo #StoryTelling de la info o mandando un mail con un resumen.

Por ejemplo, si un gerente comercial quiere conocer un agrupamiento de ventas, que creen que querría ver:

En el gráfico 1 tenemos la salida de un agrupamiento realizado en #Python. En el gráfico 2, un Dashboard con informacion consolidada. No quedan dudas que un Dashboard es útil como Cuadro de Mando, no solo por la informacion, sino porque visualmente permite explorar datos complejos y conocer métricas claves de manera simple.

[popup_anything id=”2076″]

Tags BI, BigData, dataops, Datascience, Python, StoryTelling

54cuatro

Que soluciona DataOps

Ya hicimos entradas de #DataOps (operaciones de datos), pero para refrescar la memoria decimos: es la conjunción de personas, procesos y tecnología que permiten manejar datos que sean de utilidad para #desarrolladores, #datascientist, #operaciones, #aplicaciones y herramientas (ej #inteligencia #artificial), permitiendo canalizar los datos, mantenerlos seguros durante su ciclo de vida y configurar una #gobernanza sobre los mismos.

Mientras mas rapido manipulemos y entreguemos los datos, mas rápido sera el crecimiento para el negocio por el uso de la informacion, por lo tanto, su objetivo es promover prácticas y procedimientos de gestión de datos que mejoren la velocidad y precisión de los análisis.

Short-list con 5 problemáticas básicas que son resueltas con la implementación de DataOps en una organización.

Veamos que nos resuelve DataOps:

#Corrección de errores: además de mejorar la agilidad de los procesos de desarrollo, DataOps tiene el poder de impulsar el tiempo para responder a errores y defectos reduciendo los tiempos significativamente.

#Eficiencia: en DataOps, los especialistas de datos y los desarrolladores trabajan juntos y, por lo tanto, el flujo de información es horizontal. En lugar de comparar información en reuniones semanales o mensuales, el intercambio ocurre regularmente, lo que mejora significativamente la eficiencia comunicacional y los resultados finales.

#Objetivos: DataOps proporciona a desarrolladores y especialistas en datos en tiempo real sobre el rendimiento de sus sistemas.

#Silos de datos : DataOps enfrenta a los silos de datos que se generan en distintos departamentos o gerencias de una empresa, muchos grupos ven sus operaciones como “quintas” inviolables en las cuales cada silo es una barrera para el éxito para implementar mejores estrategias de administración de datos. La implementación de un governance correcto es crucial para la obtención de todas las fuentes de datos que requiere la organización para cumplir con sus objetivos de negocios.

#Skills: es un hecho que los profesionales de datos no abundan. La falta de disponibilidad de las personas adecuadas para administrar proyectos de #BigData y #BI (#BusinessAnalytics) significa que los proyectos no sean ejecutados en tiempo y forma, o peor aun, que fallen. Es un error poner más datos en un equipo que no tiene el conocimiento y los recursos para manejarlos.

Vea nuestro workshop de DataOps

Los invitamos a unirse a nuestro Grupo en Linkedin de “DataOps en Español“

[popup_anything id=”2076″]

Tags aplicaciones, artificial, BI, BigData, BusinessAnalytics, Corrección, dataops, datascientist, desarrolladores, Eficiència, gobernanza, inteligencia, Objetivos, Operaciones, Silos, Skills

54cuatro

Es el momento de DataOps. Conoce los detalles

Post author By 54admin
Post date 15/09/2019
No hay comentarios en Es el momento de DataOps. Conoce los detalles

#DataOps , es una metodología surgida de las culturas #Agile que busca cultivar prácticas y procesos de gestión de datos para mejorar la velocidad y precisión de los análisis, incluido el acceso, calidad, automatización, integración y modelos de datos.

#DataOps se trata de alinear la forma en que administra sus datos con los objetivos que tiene para esos datos.

No esta mal recordar parte del Manifiesto DataOps:

Personas e interacciones en lugar de procesos y herramientas
Soluciones de analítica eficientes en lugar de documentación comprensiva
Colaboración con el consumidor en lugar de negociaciones contractuales
Experimentación, interacción y retroalimentación en lugar de un diseño extensivo directo
Titularidad multidisciplinar de las operaciones en lugar de responsabilidades aisladas.

Vamos a poner un ejemplo claro de DataOps aplicado a la reducción de la tasa de rotación de clientes. Puede aprovechar los datos de sus clientes para crear un motor de recomendaciones que muestre productos que sean relevantes para sus clientes, lo que los mantendría comprando por más tiempo. Pero eso solo es posible si su equipo de ciencia de datos tiene acceso a los datos que necesitan para construir ese sistema y las herramientas para implementarlo, y puede integrarlo con su sitio web, alimentar continuamente nuevos datos, monitorear el rendimiento, etc. Para eso necesita un proceso continuo que requerirá incluir información de sus equipos de ingeniería, TI y negocios.

Para poder implementar soluciones que aporten valor, es necesario de la gestión de datos saludables. Una mejor gestión de datos conduce a mejores datos, y más disponibles. Más y mejores datos conducen a un mejor análisis, lo que se traduce en mejores conocimientos, estrategias comerciales y una mayor rentabilidad.

DataOps se esfuerza por fomentar la colaboración entre científicos de datos, ingenieros y expertos de TI para que cada equipo trabaje sincronizado en aprovechar los datos de la manera más adecuada y en menor tiempo.

DataOps es una de las muchas metodologías nacidas a partir de DevOps. El éxito de #DevOps radica en eliminar los silos de la TI tradicional: uno que maneja el trabajo de desarrollo y otro que realiza el trabajo operativo. En una configuración de DevOps, la implementación del software es rápida y continua porque todo el equipo está unido para detectar y corregir problemas a medida que ocurren. dataops

DataOps se basa en esta idea, pero aplicándola en todo el ciclo de vida de los datos. En consecuencia, los conceptos de DevOps como CI/CD ahora se están aplicando al proceso de producción de ciencia de datos. Los equipos de ciencia de datos están aprovechando soluciones de control de versiones de software como GitHub para rastrear cambios de código y tecnología de contenedores como Kubernetes y Openshift para crear entornos para Análisis y despliegue de modelos. Este tipo de enfoque de ciencia de datos y DevOps a veces se denomina “análisis continuo”.

Ahora bien. Hasta acá toda la teoría. Pero… ¿Cómo empiezo a implementar DataOps?

Aquí es donde debes comenzar:

#Democratice sus datos. Elimine las barreras burocráticas que impiden el acceso a los datos de la organización, cualquier empresa que se esfuerza por estar a la vanguardia necesita conjuntos de datos que estén disponibles.
#Aproveche las plataformas y las herramientas de código abierto. Plataformas para movimiento de datos, orquestación, integración, rendimiento y más.
Parte de ser ágil es no perder el tiempo construyendo cosas que no tiene que hacer o reinventar la rueda cuando las herramientas que su equipo ya conoce son de código abierto. Considere sus necesidades de datos y seleccione su pila tecnológica en consecuencia.
#Automatizar, automatizar, automatizar. Este viene directamente del mundo de DevOps, es imprescindible que automatice los pasos que requieren innecesariamente un gran esfuerzo manual, como pruebas de control de calidad y monitoreo de canalización de análisis de datos.
Habilitar la autosuficiencia con #microservicios. Por ejemplo, dar a sus científicos de datos la capacidad de implementar modelos como #API significa que los ingenieros pueden integrar ese código donde sea necesario sin #refactorizar, lo que resulta en mejoras de productividad.

Si quiere saber mas, recomendamos entrar a nuestro grupo de Linkedin, DataOps en Español.

[popup_anything id=”2076″]

Tags Agile, API, Aproveche, Automatizar, dataops, Democratice, DevOps, microservicios, refactorizar

54cuatro

Que es DataOps?

En muchas organizaciones el análisis de datos demora mucho producto de la rigidez de los procesos y de la tecnología. #DataOps sirve para identificar y eliminar los cuellos de botella que ralentizan el desarrollo de los análisis de #datos.

[popup_anything id=”2076″]

Tags dataops, datos

Los problemas resueltos por DataOps

Desafíos que enfrenta DataOps

¿Qué es un marco de DataOps?

¿Cuál es la diferencia entre DataOps y DevOps?

Diferencias entre un ambiente on-premise contra uno Cloud

Optimización de Costos

Beneficios adicionales

Conclusión

¿Que es MLOPS?

¿Que soluciona MLOPS?

¿MLOPS requiere de un Pipeline?

¿Como comienzo mi camino hacia MLOPS?

Para empezar, debemos crear una cultura de automatización.

Conclusión final

¿Porque Utilizar un Lago de datos?​

Zonas de un lago de datos​

Governance? Que es?

Casos de Uso Datalake​

Infografía

Marco metodológico

La presentación de resultados

Veamos que nos resuelve DataOps:

Vea nuestro workshop de DataOps

Los invitamos a unirse a nuestro Grupo en Linkedin de “DataOps en Español“

¿Porque Utilizar un Lago de datos?

Zonas de un lago de datos

Casos de Uso Datalake