¿Qué es Machine Bias?: Los sesgos en Machine Learning

Tuesday, December 4, 2018

¿Qué es Machine Bias?: Los sesgos en Machine Learning

Escrito por Enrique Blanco, investigador del equipo de Ideas Locas CDO de Telefónica.

A medida que el Machine Learning ha ido permeabilizando más nuestra sociedad, se han ido descubriendo diferentes sesgos debido a las sutiles, pero nada desdeñables, consecuencias derivadas de su presencia en múltiples algoritmos. Durante los últimos años, con el creciente uso de este tipo de tecnologías, se han ido descubriendo múltiples sesgos de Machine Learning que nos deberían dar qué pensar. Si bien el aprendizaje automático ofrece una fuente de información muy valiosa y nos dota de herramientas de gran utilidad para comprender el mundo que nos rodea, los sesgos descubiertos podrían resultar contraproducentes para el interés general o beneficiar a algunos en detrimento de otros.

Imagen de una mano que mira la realidad a través de una lente



¿Sabías que en 2016 se descubrió que algunos de los algoritmos de LinkedIn tenían un sesgo de género que, por ejemplo, recomendaba empleos mejor remunerados a hombres en vez de a mujeres? Esta casuística se veía reforzada por el hecho de que, en la sociedad actual, los puestos de elevada remuneración están predominantemente ocupados por hombres. De igual manera, cuando buscabas a un usuario femenino en esa red, era habitual que el motor de búsqueda te sugiriera un nombre masculino similar.

Un año antes, en 2015, un desarrollador de software advirtió que el servicio de reconocimiento facial de Google había etiquetado las fotos de él con un amigo de color como "gorilas". Google entonó el mea culpa y declaró que estaba "trabajando en soluciones a largo plazo". Más de dos años después, uno de esos arreglos corresponde a borrar los términos relativos a gorilas y algunos otros primates del léxico del servicio; una torpe solución a todas luces, lo cual ilustra las dificultades a las que se enfrentan las compañías de tecnología cuando buscan ofrecer servicios de calidad fundamentados en aprendizaje automático.

Cada vez son más las empresas que están haciendo uso del Machine Learning para ayudar a la toma de aquellas decisiones que puedan beneficiar al crecimiento de su negocio, desarrollando nuevos programas que configuran algoritmos complejos para trabajar con conjuntos de datos sobre los clientes o el mercado en el que se mueven. No cabe duda del gran potencial que albergan estas nuevas tecnologías, que no sólo permite aumentar beneficios, sino también incluso impulsar el desarrollo de esas empresas hacia otros canales de negocio que, de otra manera, no se habrían descubierto. Sin embargo, la falta de experiencia en el correcto desarrollo de estos algoritmos puede llegar a convertirse en un problema real. 

El sesgo algorítmico es uno de los mayores riesgos porque compromete y pone en duda la totalidad del propósito del Machine Learning. Este sesgo, a menudo pasado por alto, puede conducir a errores costosos y, de no controlarse de manera adecuada, puede llevar a proyectos y organizaciones enteras a tomar decisiones en direcciones erróneas, independientemente del paradigma en el que nuestras herramientas se hayan desarrollado.

Los factores que más suelen influir en el desempeño de un algoritmo de Machine Learning son, no sólo el paradigma del algoritmo y su implementación, sino también la calidad y cuantía de los datos utilizados. Un modelo es tan bueno como los datos de los que aprende, y esto se convierte en algo imprescindible para mantener la integridad de las decisiones tomadas por las representaciones aprehendidas por los algoritmos. Entrenar un modelo con datos sesgados en una determinada dirección puede afectar seriamente al desempeño de la herramienta, condenando los resultados obtenidos por el modelo. A esto se le llama Machine bias, del cual ha quedado ampliamente demostrado su dificultad de subsanación. Este sesgo, muy diferente del sesgo estadístico o muestral al que estamos acostumbrados, no es más que la proyección de los prejuicios – que pueden ser inconscientes – de los desarrolladores en los propios algoritmos o de falta de rigor en la correcta recogida de datos para el entrenamiento de los mismos. Ninguna empresa que construya tecnología de Machine Learning está exenta de evitar la incorporación de prejuicios a sus algoritmos.

Tanto los algoritmos supervisados como los no supervisados se utilizan para encontrar e identificar tendencias en grandes conjuntos de datos. Los principales pasos para el uso de un algoritmo de Machine Learning son el pre-procesamiento de datos, el ajuste del modelo, la realización de predicciones, la visualización de resultados y la evaluación de su desempeño.

Los algoritmos más usados en Machine Learning son aquellos capaces de automatizar un proceso tras haber aprendido a partir de un conjunto de ejemplos conocidos. A esto se le conoce como aprendizaje supervisado, en el que el usuario facilita a un determinado algoritmo pares entrada-salida de ejemplo, siendo el algoritmo el encargado de aprender la relación para posteriormente ser capaz de dar una salida para una entrada jamás vista sin la supervisión de ningún ser humano. En los problemas de aprendizaje supervisado se enseña o entrena al algoritmo a partir de datos que ya vienen etiquetados con la respuesta correcta. Cuanto mayor es el conjunto de datos más aprenderá el algoritmo. Una vez concluido el entrenamiento, se le brindan nuevos datos, ya sin las etiquetas de las respuestas correctas, y el algoritmo de aprendizaje utiliza la experiencia pasada que adquirió durante la etapa de entrenamiento para predecir un resultado.

El otro principal paradigma corresponde al aprendizaje no supervisado, donde sólo se proporcionan los datos de entrada al modelo. Hay múltiples aplicaciones de este tipo de método, aunque pueden resultar más difíciles o complicadas de evaluar.  En los problemas de aprendizaje no supervisado el algoritmo es entrenado usando un conjunto de datos que no tiene ninguna etiqueta; en este caso, nunca se le dice al algoritmo lo que representan los datos. La intención es que el algoritmo pueda descubrir por sí solo patrones que ayuden a entender el conjunto de datos.

A pesar de lo indicado anteriormente, el Machine bias se puede prevenir y reparar. Para ello es necesario que aquellos que crean y usan sistemas de Machine Learning comprendan cómo funcionan estos sistemas, monitoricen continuamente la calidad de sus resultados y estén dispuestos a emplear expertos que puedan hacer que esta tecnología funcione de manera óptima.

El Machine Learning apenas ha comenzado a mostrar el verdadero valor que puede ofrecer a nuestra sociedad. Nos corresponde a todos, tanto a aquellos que construyen las herramientas como a los que las usan, asegurarnos de que esta tecnología sea de beneficio general, libre de discriminaciones o prejuicios.

Por todo ello, en Telefónica nos comprometemos a usar la inteligencia artificial con integridad y transparencia, haciendo especial hincapié en la igualdad, la claridad, la privacidad y la seguridad en todos los mercados en los que opera la compañía. De esta manera, el 30 de octubre de 2018, Telefónica se convirtió en una de las primeras compañías del mundo en fijar unos principios aplicación de IA y de pautas éticas al respecto.


Para mantenerte al día con LUCA visita nuestra página web, y no olvides seguirnos en TwitterLinkedIn YouTube.

No comments:

Post a Comment