Categories
54cuatro

Que es CRISP-DM y como utilizarlo en proyectos de analítica

¿Que es CRISP-DM?

CRISP–DM es una metodología utilizada en proyectos de Data Mining. Es la guía de referencia más utilizada.

Image for post

Consta de 6 fases fundamentales para encarar cualquier proyecto de Data Mining.

  1. Comprensión de los requisitos de negocios
  2. Comprensión de los datos disponibles
  3. Preparación de los datos
  4. Modelado
  5. Evaluación
  6. Implementación

1- Fase de Comprensión de los requisitos de negocios

En esta fase se realiza el análisis del requerimiento de negocios que buscamos resolver utilizando análisis sobre los datos.

Es una de las fases mas importantes, si no la mas importante. Establecer el objetivo permite determinar que datos necesitamos, buscar las fuentes y analizar la calidad de los datos disponibles.

El proceso de adquisición de datos es muy tedioso, dependiendo del problema que intente resolver.

2- Comprensión de los datos disponibles

Durante esta fase se identifica que datos tenemos, y como mencionamos, se analiza la calidad de esos datos.

Se busca comprender si existen faltantes fundamentales, la calidad, las relaciones, y también es donde se efectúan análisis exploratorios hipotéticos. Por ejemplo:

  • Seleccionar columnas importantes
  • Filas de muestreo (prueba de tren dividida, validación cruzada)
  • Crear o derivar nuevas variables compuestas
  • Filtrar datos (filtrar puntos de datos irrelevantes)
  • Fusión de fuentes de datos (agregaciones de datos)
  • Imputar o eliminar valor faltante
  • Decidir si eliminar o mantener el valor atípico

3- Preparación de los datos

En esta fase se realiza la preparación de los datos para adaptarlos a las técnicas de Data Mining que se utilicen posteriormente, tales como técnicas de visualización de datos, de búsqueda de relaciones entre variables u otras medidas para exploración de los datos.

Durante esta etapa se va a seleccionar la técnica de modelado mas apropiada, junto con la limpieza de datos, generación de variables adicionales, integración de diferentes orígenes de datos y los cambios de formato que sean necesarios.

4- Modelado

Durante el modelado, se busca establecer modelos de análisis basados en las técnicas de mining que son apropiadas al objetivo de negocios con los datos disponibles que tenemos. Si el objetivo conlleva una solución que tiene que ver con técnicas de Clasificación, podemos elegir entre Arboles de Decision, K-Near, CBR u otros. Si lo que buscamos resolver tiene que ver con Predicciones, realizaremos análisis basados en Regresiones.

Una vez determinado el modelo, se construye y adicionalmente se debe generar un
procedimiento destinado a probar la calidad y validez del mismo. Por eso pasamos a la siguiente fase, Evaluación.

5- Evaluación

Durante esta fase, se realizan 2 evaluaciones. Por un lado se evalúa el modelo, teniendo en cuenta si se cumplen los objetivos de negocios planteados. Para ello se utilizan técnicas para determinar la performance de modelo, y en base a eso, ajustar las variables que mejoren su rendimiento.

Por otro lado, se evalúa que las evaluaciones realizadas por los modelos probados, son de valor para el negocio. Durante esta parte de la evaluación, es necesario trabajar con gente que pueda interpretar si los datos son fiables o es aconsejable probar otros modelos.

6- Implementación

En la fase anterior, un analista de negocio nos dio feedback sobre los resultados obtenidos. Si los datos no fueran fiables, volveríamos a fases anteriores, para ajustar el proceso.
Pero si los datos dieran resultados valiosos, y es donde esta sexta fase, se considera la fase de implantación del conocimiento obtenido para que sea transformado en acciones dentro del proceso de negocio, por medio de accionables estratégicos (campañas de marketing, de ventas, publicitarias, ofertas, mejores precios, etc etc etc).

Detalles a tener en cuenta

#CRISP-DM cumple con 6 fases, las cuales no son estáticas ni estancas. Este proceso es dinamico y se debe considerar un proceso de revisión del proceso entero de #datamining, para poder identificar datos, variables, relaciones y cualquier tipo de elemento que pueda ser mejorado.

En la actualidad existen muchas ofertas de servicios basados en #MachineLearning, pero este tipo de análisis no nacieron con los servicios #cloud. Si es importante destacar que en la actualidad servicios como #Azure, #AWS y #GCP cuentan con herramientas de analítica que facilitan la recolección, limpieza y explotación de los datos, pero frameworks como #CRISP existen hace muchos años y es de vital importancia hacer uso de sus bondades, y aprovechar su ayuda para administrar los datos de una manera más estructurada.

Video Resumen


[popup_anything id=”2076″]