¿La clave del  éxito del Machine Learning? Datos de calidad

Wednesday, April 25, 2018

¿La clave del éxito del Machine Learning? Datos de calidad

No hacemos más que hablar del uso cada día más extendido del Machine Learning y otras tecnologías de Inteligencia artificial que hacen muchos procesos más eficientes y rentables. Sin embargo, no se habla tanto del enemigo número uno del Machine Learning: la falta de datos o su mala calidad. 
Siempre que hablamos de analíticas, tenemos que tener presente que la calidad de los resultados va a ser directamente proporcional a la calidad de los datos de partida. Y si pasamos a hablar de Machine Learning, la calidad de los datos todavía cobra mayor relevancia. No sólo respecto a los datos  históricos que usamos para crear el modelo, sino también, respecto a los datos de entrada con los que alimentamos el modelo para hacer predicciones en las que basar decisiones futuras.

Figura 1: La mala calidad de los datos es uno de los mayores obstáculos a los que deben enfrentarse los científicos de datos.

¿Y cómo sabemos si nuestros datos son buenos o no?. Hay dos enfoques posibles para valorar la calidad de los datos. El primero, tiene que ver con que sean correctos, completos, estén bien etiquetados etc. Pero hay otro factor de vital importancia. ¿Puedo encontrar la respuesta a mi problema en este conjunto de datos?¿Están esos datos libres de cualquier tipo de sesgo?. Cuando trabajamos con analíticas Machine Learning, ambos enfoques son fundamentales.

Según Harward Business Review, sólo el 3% de los datos de las empresas reúne los requisitos de calidad mínimos. Esto se traduce en incrementos de costes, pérdidas de tiempo, peores decisiones y clientes molestos o, aun peor, enfadados. En definitiva, genera un problema de credibilidad de los datos.

Los factores que afectan a la calidad de los datos son múltiples, y con distintos orígenes. Pueden ser instrumentos de medida mal calibrados, errores humanos, procesos de ingesta excesivamente complejos o, sencillamente, que no se ha entendido bien el problema y los datos que se han recogido no son los adecuados para resolverlo. Esta mala calidad de los datos es, según una el origen de gran parte de los quebraderos de cabeza de los científicos de datos, siendo la tarea que más tiempo les lleva (puede llegar a consumir un 80% del tiempo del proyecto) y menos les gusta. Se puede ver un ejemplo del tipo de tareas implicadas en este trabajo en nuestra serie del Blog dedicada a la depuración de datos:

Limpiador
Figura 1: Limpiador.

Tus datos más limpios, casi sin frotar
Tus datos más limpios (III y fin): Probando Trifacta Wrangler

A pesar de todo el tiempo y el esfuerzo dedicado a las tareas de limpieza y depuración de los datos, otros aspectos como la existencia de sesgos en la información, y un mal uso de un modelo bien entrenado, pueden afectar seriamente a los resultados. 

En este vídeo, Google, que recibió tantas críticas por el sesgo racista de su algoritmo de detección de imágenes (en realidad el sesgo racista no lo tenía el algoritmo, sino los datos con los que había sido entrenado), nos explica de forma muy clara qué es el sesgo y cómo puede influir sobre una aplicación Machine Learning.




Por ello, para evitar en la medida de los posible estos problemas, se hace necesario:
  1. Tener claros los objetivos y si tenemos los datos necesarios para conseguirlos.
  2. Dedicar el tiempo necesario para garantizar la calidad de los datos y tratar de eliminar las causas de error desde la raíz.
  3. Garantizar la trazabilidad de los datos en todo momento, manteniendo una copia de los datos de entrenamiento originales y los pasos dados en su procesamiento. Será muy útil para introducir mejoras en el proceso, así como para detectar posibles sesgos o  limitaciones.
  4. Una vez productivizado el modelo, asegurarse de que exista un responsable que garantice el cumplimiento de los estándares de calidad de los datos de entrada del modelo.
  5. Efectuar auditorías independientes de calidad de forma regular

A pesar de todos estos cuidados, los datos nunca son perfectos. Pero si queremos el que Machine Learning sea como la "piedra filosofal" que convierta nuestros datos en oro, necesitaremos, no sólo datos, sino datos buenos (¡y cuantos más mejor!).

No comments:

Post a Comment