Categories
54cuatro

Desarrollando soluciones CV con Inteligencia Artificial en Azure

La visión por computadora, o #CV (Computer Vision) es un método exploratorio de imágenes por medio de la inteligencia artificial (#IA) que entrena a las computadoras para interpretar y comprender el mundo visual. Permite analizar fotos y/o vídeos con equipos tales como cámaras y que a partir de algoritmos de análisis pueden identificar y clasificar objetos que sirven para tareas tales como:

  • Reconocimiento de patrones/comportamientos
  • Procesamiento e interpretación de imágenes de video vigilancia
  • Análisis de imágenes multiespectrales
  • Modelado y reconstrucción 3D
  • Visión por computador en ciudades inteligentes para controles

¿Como puedo usar Azure para realizar desarrollos de Inteligencia Artificial?

#Microsoft ofrece servicios cognitivos a través de su plataforma #Azure por medio de su suite “Azure Cognitive Services“, desde donde se pueden analizar imágenes por medio de tecnología de CV, como también trabajar con Lenguaje y Voz.

Los servicios que se ofrecen tienen SDK y API disponibles. Para el caso puntual de esta nota, la parte de visión, actualmente cuenta con tres servicios:

  • Azure Computer Vision : para usar algoritmos de análisis de imágenes avanzados preexistentes.
  • Azure Custom Vision para crear, mejorar e implementar sus propios clasificadores de imágenes.
  • Rostro : para utilizar algoritmos faciales avanzados preexistentes para detectar y reconocer rostros humanos.

Casos Prácticos

El uso típico de las herramientas de CV se basan en enviar una imagen y obtener información detallada sobre las diversas características visuales (y atributos) que se encuentran en ella. Pero estos son algunos usos interesantes que se le puede dar a la visión por computadora:

  • Etiquetar características visuales: obtenga atributos que puedan servir como metadatos para la imagen.
  • Detectar objetos: observar imágenes/vídeos y poder detectar objetos, un caso practico podría ser detectar un automóvil mal estacionado
  • Detectar marcas: observar imágenes/vídeos y poder detectar marcas comerciales, esto podría ser de utilidad para una empresa que desea comparar su posicionamiento en anaqueles de un supermercado respecto a su competencia
  • Detectar rostros: observar imágenes/vídeos y detectar a una persona, de gran utilidad para seguridad, controles de acceso o incluso para onboarding digital. En este punto es importante destacar que Azure posee un servicio mas complejo, llamado Face Service dentro Azure Cognitive Services que permite detectar emociones, poses de la cabeza o la presencia de máscaras faciales

En caso de que lo que esté desarrollando sea muy especifico, se provee una suite llamada Custom Vision. Este módulo se centra en la creación de modelos personalizados para la detección de objetos.

Por lo general, esto requeriría un conocimiento avanzado de las técnicas de aprendizaje profundo (#deeplearning) y un gran conjunto de datos de entrenamiento, pero el uso de Custom Vision Service nos permite lograr esto con menos imágenes y sin experiencia en ciencia de datos (#datascience)

Lectura de Documentos

Otra gran funcionalidad que permite la visión por computadora, es la de reconocer textos. Como parte de la suite de Azure existe un modulo basado en #OCR (Reconocimiento óptico de caracteres) que permite leer texto impreso y escrito a mano desde imágenes y como complemento existe un servicio orientado puntualmente a la lectura de formularios llamado Form Recognizer. Esta herramienta no solo permite interpretar los datos de un formularios, sino que posibilita el procesamiento inteligente de formularios y la creación de los flujos de trabajo de automatización para documentos como recibos y facturas.

Es una herramienta de gran utilidad para la digitalización de procesos de empresas que aun dependen de la recepción de recibos de pagos de sus clientes en papel, de manera que el modelo puede reconocer formatos de los recibos, extraer los atributos (fecha y hora del pago, monto, impuestos, etc) y cargarlos en sus sistemas informáticos corporativos.

La visión por computadora es de gran utilidad para la digitialización de las compañías y organizaciones gubernamentales, ya que permiten realizar tareas repetitivas y monótonas a un ritmo más rápido y con menos errores, lo que simplifica el trabajo de los humanos.


Categories
54cuatro

¿Tus datos te informan, te guían o te inspiran?

Contexto general

Me da la sensación que muchas organizaciones tienen como objetivo convertirse en ‘Data Driven’, o en español, impulsada por datos. Pero considero que para aspirar a ser #DataDriven debemos primero dominar la etapa de ser una empresa Informada, y a futuro podemos aspirar a ser una empresa Inspirada por los #datos, donde la conjunción de datos y personas sean un catalizador de nuevas ideas.

Si planteamos un escenario donde su compañía busca ser impulsada por los datosrequiere tener los datos exactos que se necesitan para tomar una decisión, ya que será la Información la que le de certeza de la decisión a tomar. A diferencia de estar informado por los datos donde es necesario conocer el rendimiento actual de sus análisis y poder responder ciertas preguntas desde la experiencia, por ejemplo: por qué el producto se está desempeñando de la manera en que lo hace, y con esa respuesta plantear un accionable para optimizar sus estrategias de marketing y/o comerciales.

¿Data Driven es el mejor destino?

Considero que un mejor destino es buscar ser una organización Inspirada por sus Datos, con la capacidad de detectar y generar tendencias, nuevas ideas, nuevos productos, desde una vista de intuición sostenida por información.

¿Como avanzar?

En mi opinión, se debe seguir un journey determinado de esta manera:

Paso 1) Estar informado por datos. Basado en datos significa lograr utilizar la informacion de sus sistemas para generar reportes que le ayuden a comprender el rendimiento de indicadores claves y poder determinar las razones de los resultados, saber qué y por qué. Este tipo de estrategias analizan el pasado, de manera que estar Informado por los Datos debería ayudar a explicar los fracasos y los éxitos del pasado para impulsar estrategias futuras.

Paso 2) Adoptar el Data Driven. Estar orientado por medio de datos significa que tiene los datos que determinarán una decisión futura. Una empresa Data Driven requiere de una rigurosidad en el manejo de la información para garantizar los resultados de las tomas de decisiones y es por tal motivo que se aparece la figura del análisis basado en modelos matemáticos (#DataScience). Nuevamente voy a aportar un punto de vista personal: ser Data Driven, requiere tener buenos modelos de BI previos, creo que primero se está “Informado por los datos” y luego se es “Data Driven”; principalmente porque las hipótesis para las que usamos los datos están destinados a responder preguntas muy específicas.

Paso 3) Inspirado por los Datos. Estar inspirado por los datos, corresponde a toda una mecánica analítica puesto a disposición de la compañía, donde se combinan datos de diferentes fuentes para inspirar nuevas ideas.

La suma del Paso 1 y el Paso 2, generan un modelo Data-Inspired, donde se conjugan las intuiciones de las personas con la rigurosidad de los resultados de algoritmos para dar rienda sueltas a la creatividad.

En que paso se encuentra tu compañía? Te animas a descubrilo juntos?


[popup_anything id=”2076″]
Categories
54cuatro

Resolver sesgos cognitivos con Data Science

Fotos sesgo libres de regalías | Pxfuel

Que es un sesgo?

Un #sesgo es cualquier cosa que pueda distorsionar nuestra capacidad de sacar conclusiones de manera imparcial y objetiva. Muchos de estos sesgos pueden ser intencionales o accidentales, pero de la forma que sea, son enemigos de las buenas decisiones.

¿Como tomamos decisiones?

Tampoco quiere decir que debemos delegar el 100% de la toma de decisiones en algoritmos, sino que debemos complementar experiencia con datos estadísticos para crear decisiones mas precisas.

En términos generales “sesgo” se deriva de la antigua palabra griega que describe una línea oblicua (es decir, una desviación de la horizontal). Investigadores han descubierto más de 200 sesgos diferentes en las últimas siete décadas y han estudiado cómo estos sesgos impactan áreas como las finanzas, la gestión y el juicio clínico, pero vamos a hacer foco en estos 20 sesgos publicados por Samantha Lee y Drake Baer en Business Insider que afectan nuestras decisiones y comparando como ello puede afectar un análisis de negocios:

Sesgo PublicadoNuestra apreciación
1. Sesgo de anclaje. Las personas confían demasiado en la primera información que escuchan.Esto puede generar un resultado interesante en la exploración temprana e ignorar otros resultados posibles o, lo que es peor, ignorar información contradictoria.
2. Heurística de disponibilidad. La gente sobreestima la importancia de la información que está disponible para ellos.Se confía con demasiada frecuencia solo en datos recopilados previamente y no se realizan experimentos controlados aleatorios propios. Incluso sin experimentos se puede confiar en los datos disponibles y no buscar fuentes adicionales..
3. Efecto Bandwagon. La probabilidad de que una persona adopte una creencia aumenta en función del número de personas que tienen esa creencia.Esto suele afectar por ejemplo si alguien ha oído hablar de un fenómeno particular (por ejemplo, el tono incorrecto de azul que hace que las personas abandonen un sitio web) y tratar de reproducirlo para el cliente de inmediato.
4. Sesgo del punto ciego. No reconocer sus propios sesgos cognitivos es un prejuicio en sí mismo.Es necesario trabajar para desarrollar un número suficiente de hipótesis de calidad.
5. Sesgo de apoyo a la elección. Cuando eliges algo, tiendes a sentirte positivo al respecto, incluso si esa elección tiene defectos.Esto lleva a “casarse” con un resultado inicial, una visualización o una técnica de aprendizaje automático.
6. Agrupación de ilusión. Esta es la tendencia a ver patrones en eventos aleatorios.El mundo de la ciencia de datos está repleto de correlaciones espurias.
7. Sesgo de confirmación. Tendemos a escuchar solo la información que confirma nuestras ideas preconcebidas.No hay espacio para nociones preconcebidas en el mundo de la ciencia de datos.
8. Sesgo de conservadurismo. Cuando las personas favorecen la evidencia previa sobre la nueva evidencia o información que ha surgido.Los datos a veces pueden revelar tendencias emergentes, sobre los clientes y sus hábitos, que son tan inesperados y contrarios al comportamiento pasado que son difíciles de aceptar.
9. Sesgo de información. La tendencia a buscar información cuando no afecta la acción.Se debe gastar tiempo solo cuando existe la posibilidad de generar un resultado procesable, donde procesable no incluye barreras culturales o financieras insuperables para la implementación.
10. Efecto de avestruz. La decisión de ignorar información peligrosa o negativa al “enterrar” la cabeza en la arena, como un avestruz.Poner todos los datos a disposición en los análisis evita esta tendencia a esconder informacion.
11. Sesgo de resultado. Juzgar una decisión basada en el resultado, en lugar de cómo exactamente se tomó la decisión en el momento.Los equipos de análisis no trabajan como justificación de las decisiones, solamente buscan nuevos complementos.
12. Sobreconfianza. Algunos de nosotros confiamos demasiado en nuestras habilidades, y esto nos lleva a asumir mayores riesgos en nuestra vida cotidiana.Solemos asumir que entendemos todo acerca de un área de experiencia, o herramientas que manejamos, haciendo que cometamos errores y no aprovechemos el potencial.
13. Efecto Placebo. Cuando simplemente crees que algo tendrá cierto efecto en ti, hace que tenga ese efecto.Por ejemplo, en una comparación A/B, debemos asegurarnos de que los usuarios no sepan cuál es la versión “antigua” y cuál es la “nueva”, o incluso, si los usuarios de la prueba son internos, qué opción es la preferida por su jefe.
14. Prejuicio a favor de la innovación. Cuando un proponente de una innovación tiende a sobrevalorar su utilidad y menospreciar sus limitaciones.Se debe garantizar que se pueda establecer un beneficio cuantitativo para tomar esa acción.
15. Frescura. La tendencia a ponderar la información más reciente con mayor intensidad que los datos anteriores.Cuando ocurre una anomalía, es necesario evaluar la relevancia y las causas.
16. Rasgo sobresaliente. Nuestra tendencia a enfocarnos en las características más fácilmente reconocibles de una persona o concepto.Es necesario centrarse en los resultados que tienen el mayor impacto cuantificable, no en los que tienen una narrativa cautivadora.
17. Percepción selectiva. Permitir que nuestras expectativas influyan en cómo percibimos el mundo.Si se descubren fallas en algún lugar de un sistema u organización, se debe aplicar ese rigor de manera uniforme en todo el sistema u organización.
18. Estereotipos. Esperar que un grupo o persona tenga ciertas cualidades sin tener información real sobre la persona.Si se realiza la segmentación de clientes, los estereotipos pueden ayudar a formular hipótesis (por ejemplo, los hogares con niños pueden ser más propensos a comprar juguetes), pero estas hipótesis deben probarse (por ejemplo, los datos pueden mostrar que los abuelos también compran muchos juguetes).
19. Sesgo de supervivencia. Un error que proviene de centrarse solo en los ejemplos que sobreviven, lo que nos hace juzgar mal una situación.Un análisis de abandono de los datos actuales puede perder las razones por las cuales los clientes se quedaron fuera hace un año cuando se realizó un cambio importante en el sitio web.
20. Sesgo de riesgo cero. Los sociólogos han descubierto que amamos la certeza, incluso si es contraproducente.Gravitar hacia un resultado procesable de alto impacto y bajo impacto sobre un resultado procesable de alto impacto y medio nivel de confianza. En cambio, el científico de datos debe trabajar para aumentar la confianza de este último o para refinar sus límites.

¿Como corregir sesgos por medio de la ciencia de datos?

En #DataScience, el sesgo es una desviación de la expectativa en los datos. Más fundamentalmente, el sesgo se refiere a un error en los datos.

head, brain, thoughts, human body, face, psychology, concentration ...

Los #modelos #predictivos solo “ven” el mundo a través de los datos utilizados para el entrenamiento. De hecho, ellos no conocen ninguna otra realidad. Cuando esos datos están sesgados, la precisión y fidelidad del modelo se ven comprometidas. Los modelos sesgados pueden limitar su credibilidad con las partes interesadas. Conocer estos riesgos le permite a un Científico de Datos eliminar mejor el sesgo. 

Los modelos resultantes de mayor calidad mejoran la adopción de análisis y aumenta el valor de la inversión en análisis.


[popup_anything id=”2076″]
Categories
54cuatro

Las diferentes etapas de la gestión de datos

Actualmente mucho se habla de #BigData y #DataScience, y sus beneficios. Pero es importante destacar que la informacion es algo común en todas las empresas, que los Reportes y Dashboards existen hace mucho tiempo y que no es necesario realizar inversiones grandes para sacar valor de nuestros datos. Actualmente se menciona el uso de la informacion como el “petroleo” de las compañías a raíz del gran valor que se obtiene, pero mas allá de una cuestión tecnológica una estrategia de datos requiere coordinación de distintas áreas, desde los sectores de negocios, hasta los sectores técnicos. En #54cuatro tenemos una metodología propia de gestión, basada en #DataOps para realizar acciones conjuntas entre sectores para lograr los objetivos de negocios planteados.

Infografía

Analisis de Datos
Las diferentes etapas en la Gestión de Datos. Clic para ver la imagen completa

Marco metodológico

Cuando iniciamos una consultoría basada en datos, es preciso identificar el tipo de proyecto, basado en el resultado esperado. No es el mismo abordaje el que se realiza en un proyecto basado en la búsqueda de ahorros operativos que un proyecto que busque monetizar los datos. Tampoco es igual un cliente de la industria manufacturera que un cliente de retail electrónico. Es por tal motivo que en #54cuatro trabajamos las necesidades de negocio ante una metodología propia de análisis.

Antes de abordar un proyecto de datos, debemos recordar que no es lo mismo definir Estrategia, Táctica y Técnica, y que el resultado exitoso dependerá en gran parte del planeamiento Estratégico, que contenga la Táctica y la Técnica para dar con el resultado propuesto.

1) En la Estrategia debemos definir aquellos elementos que seran necesarios para alcanzar un objetivo propuesto.

2) En la Táctica definimos propiamente el método utilizado a fin de dar con objetivo.

3) Y la Técnica es la forma de utilizar los recursos de manera eficiente para cumplir con lo propuesto.

A partir de esto es que nuestra metodología busca:

  • Entender los requisitos de negocios, ya que son el paso fundamental de todo proyecto, y para esta fase, un analista de negocios asignado debe ser especialista en la Industria/Rubro del cliente.
  • A partir de conocer que se busca, se plantean los objetivos, y como se alinearan las estrategias de negocios con las tácticas y técnicas para lograr los resultados.
  • Finalmente se desarrollaran tecnológicamente todas las soluciones que nos acerquen al objetivo.
  • Y finalmente serán presentados resultados con el fin de determinar el nivel de cumplimiento con lo buscado originalmente.

La presentación de resultados

Esta etapa es tan importante que podría hacerse una nota completa para esto. Saber comunicar los resultados es vital en todo proyectos de datos. Es necesario poder identificar la forma en que se mostraran resultados operativos, KPI, reportes, métricas, alarmas, etc. También es una condición fundamental lograr interpretar el publico al que dirigimos nuestra información, y poder saber cuando corresponde enviar un archivo, cuando podemos crear un tablero de #BI, o cuando necesitamos comunicar de otras maneras, ya sea haciendo #StoryTelling de la info o mandando un mail con un resumen.

Por ejemplo, si un gerente comercial quiere conocer un agrupamiento de ventas, que creen que querría ver:

En el gráfico 1 tenemos la salida de un agrupamiento realizado en #Python. En el gráfico 2, un Dashboard con informacion consolidada. No quedan dudas que un Dashboard es útil como Cuadro de Mando, no solo por la informacion, sino porque visualmente permite explorar datos complejos y conocer métricas claves de manera simple.


[popup_anything id=”2076″]