LUCA Talk: Los 5 errores de concepto más habituales sobre Data Science

Thursday, March 22, 2018

LUCA Talk: Los 5 errores de concepto más habituales sobre Data Science

El pasado martes 20 de marzo tuvo lugar el útlimo webinar de nuestra serie de LUCA Talks. En esta ocasión, hablamos de algunos de los errores de concepto más extendidos sobre Data Science. A continuación, publicaremos el vídeo y la transcripción de la sesión para todos aquellos que no pudieron verla en directo o a los que les gustaría volver a verlo.



Transcripción del webinar

El webinar fue impartido por Paloma Recuero, Licenciada en CC Físicas y coordinadora y redactora de este blog.

Introducción

Hoy vamos a hablar de datos y de Ciencia de Datos. Como ocurre en tantos aspectos relacionados con la innovación y la tecnología se impone la terminología en inglés, así que, por claridad, nosotros también la adoptaremos. Por tanto, hablaremos de Data Science.

Los datos han invadido prácticamente todas las facetas de nuestra vida, personal y profesional. En la parte personal, por ejemplo, en las áreas relativas al ocio, la salud, el deporte, medio ambiente, incluso en las relaciones humanas. En la parte profesional o de negocio, los datos están en el corazón de las actividades de comercio, finanzas, marketing, seguridad, investigación, educación, turismo etc.

En realidad, cualquier actividad humana o fenómeno natural observable y medible genera datos. Y en la actualidad disponemos de tecnologías que nos permiten captarlos, depurarlos, procesarlos, almacenarlos y analizarlos para “exprimir” su potencial. Ese jugo que le sacamos a los datos es el que revoluciona cómo trabajan las empresas de cualquier sector que han abrazado la revolución digital, y que han dejado de basar sus decisiones de negocio en la experiencia y en la intuición, para hacerlo de forma más “informada”, basándose en los Insights obtenidos a partir de sus datos.

Sin embargo, aunque el Data Science parece hoy en día la panacea, el bálsamo de Fierabrás que resuelve cualquier problema, y de hecho, es cierto que los resultados son tangibles, están ahí, conviene hacer algunas matizaciones. Es necesario aclarar algunos errores de concepto que están muy extendidos y ajustar las expectativas a la realidad. 

Eso es precisamente el objetivo de este webminar.


1 Data Science, Big Data… es lo mismo

Hablemos con precisión

Mucha gente utiliza estos conceptos de forma intercambiable, como si fueran lo mismo. Sin embargo, son dos conceptos que, aunque efectivamente están muy relacionados, tienen distinto significado.

Es indudable que el Big data ha sido uno de los principales aceleradores del Data Science, sumado al abaratamiento y cada vez mayor complejidad  de los circuitos integrados en la infinidad de sensores que constituyen el corazón  del IoT. Cuando hablamos de Big data, hablamos de captación, depuración, gestión  y procesamiento de cantidades ingentes de datos (volúmenes mínimos de terabytes). Pero se trata de algo más que un gran número de “0” y de “1”s. Lo que caracteriza al Big Data es lo que se conoce como las 3Vs: Volumen, Variedad y Velocidad.

Sobre el Volumen, ya hemos dicho que son grandes no, enormes. Pero es que además son diferentes (y aquí entra el factor Variedad). Porque tenemos datos estructurados, no estructurados o semi-estructurados. Datos numéricos, imágenes, sonidos, vídeos, texto etc. Y son datos que se están generando continuamente, a gran velocidad. Un solo tuit no supone más que unos pocos cientos de bytes, pero si consideramos que, en un minuto, en promedio, se generan unos 350.000, no es difícil identificar que estamos ante un caso claro de Big Data.

Sin embargo, el Data Science es un concepto mucho más amplio, que abarca tanto las tareas que hemos comentado antes de captura de datos, transformación, modelado, almacenamiento, como el análisis exploratorio, la construcción de modelos y algoritmos adaptados a cada problemática concreta y la visualización e interpretación de los resultados.

Podríamos decir que el Big Data es un aspecto particular de Data Science en el que los datos sobre los que se trabajan se pueden caracterizar por alguna de las 3Vs.

Muchas veces el problema de las empresas no viene por el volumen de sus datos (no es habitual manejar petabytes de información), sino más bien por su variedad. El desafío es ser capaces de extraer información dºe fuentes online y mobile, integrar conjuntos de información dispares, dispersos, a veces inconsistentes e incompletos y transformarlos en información útil para el negocio.


2. Las máquinas aprenden solas

¿Pero cómo aparende una máquina?

Muchas personas piensan que sólo hay que introducir los datos y la magia del machine Learning dará las respuestas. Pero no hay magia que valga.

Las máquinas aprenden de los datos por medio de algoritmos. Si entrenamos el algoritmo ofreciéndole preguntas y respuestas correctas, podemos construir un modelo que le permita predecir las respuestas para nuevas preguntas. Algoritmos hay muchos, más o menos complejos, basados en distintos campos de las matemáticas (estadísticos,probabilísticos, geométricos etc.). Según el problema, serán más adecuados unos u otros.

Pero siempre, lo fundamental, es que la máquina debe aprender de los datos que le facilitemos para entrenamiento. Es como preparar un examen. Al estudiar, nos “entrenamos” con situaciones para las que tenemos la solución correcta. Trabajamos con problemas resueltos para “aprender” a resolver los que nos planteen en el examen, que nos son desconocidos (qué más quisiéramos ¿no?). De la misma forma que nosotros nos entrenamos para el examen resolviendo problemas conocidos, el algoritmo aprende a partir de esos datos de entrenamiento. Va ajustando sus parámetros, y si los datos son bastantes y de calidad suficiente, será capaz de predecir una respuesta adecuada cuando le planteemos una situación nueva. Es decir, será capaz de resolver el problema, parecido, pero nuevo, que nos pongan en el examen.

Esta es la forma de aprender conocida como “Aprendizaje Supervisado”. Cuando no se dispone de “datos etiquetados” para entrenar el algoritmo, sólo se puede describir la estructura de los datos para encontrar algún tipo de organización o patrón que simplifique el análisis (exploratorio). Este tipo de ataque es lo que se conoce como “Aprendizaje no supervisado”.

¿Y cómo han de ser esos datos? Vamos a ver un ejemplo. Si quisiéramos enseñar aritmética básica a un niño de 7 años, ¿Con cuál de estas dos pizarras tendría más posibilidades de aprender?

(...)
Está claro que con el primero, lo tendría muy complicado. Con el segundo, al menos, podría memorizar los resultados y sabría responder correctamente a alguna pregunta.

La idea con la que nos tenemos que quedar es que para poder desarrollar un modelo que funcione, lo primero será tener claro el objetivo que buscamos, pero después necesitamos disponer de un conjunto suficiente de datos con el que entrenar. El entrenamiento en realidad consiste en encontrar qué relación existe entre esos datos de entrada, los inputs y los resultados, los outputs. Y si no encontramos esa relación, probablemente habrá que transformar o agregar los datos de alguna forma que nos permita encontrarla. Por ejemplo, en vez de trabajar con palabras de un texto, trabajar con el número de veces que aparece determinada palabra.


3. Todos los datos valen

¿Qué quieres decir con que “estos datos no tienen suficiente poder predictivo?

Está claro que el uso de analíticas de datos ha cambiado las reglas del juego. Pero los datos, por si solos no pueden resolver los problemas o los desafíos a los que se enfrenta la empresa. No es cuestión de coger los datos, coger un data scientist y decirle, “Hala, encuentra algo interesante”.

Esta estrategia “exploratoria” de los datos no es que sea mala, incluso puede sacar a la luz temas que merezca la pena investigar con data science. Pero lo ideal es empezar a trabajar a partir de preguntas bien planteadas. Porque, además, muchas veces, la información que necesitamos está oculta, o es difícil de extraer, o hace falta combinar datos de distintas fuentes, 

Existe una infinidad de herramientas con las que un buen analista puede obtener la información más relevante de los datos…. si es que la hay. Porque a veces la respuesta que buscamos no está en nuestros datos. Por ejemplo, si lo que queremos es medir lo que se conoce como “customer sentiment”, la percepción, el aprecio que tienen los clientes por nuestra marca, los datos de la línea de atención al cliente pueden no ser la mejor fuente de información para este análisis. ¿Por qué? Porque normalmente, cuando los clientes llaman a soporte es porque tienen un problema, y por tanto, suelen estar si no enfadados, cuanto menos molestos, incómodos. Si medimos su “sentimiento” a partir de estos datos, el resultado va a tener un sesgo hacia los sentimientos negativos. Por tanto, estos datos no nos sirven para responder a esta pregunta concreta. Habría que trabajar con datos de valoraciones del producto en la web del fabricante y otras externas, con referencias al producto en otras webs, con tuits que mencionan al fabricante etc.

Todos los datos son valiosos. Si, pero a lo mejor no lo son para lo que necesitamos en un momento dado. La clave es determinar qué le queremos preguntar a los  datos, cuáles nos hacen falta, dónde encontrarlos y cuál es la mejor forma de explotarlos.


4. El "Data Scientist"

¿Quién es el científico de datos? Según como lo mires…

Hace unos años, en 2012, se proclamó la profesión de Data Scientist como la más sexy del momento y hoy, en 2017, aunque puede que ya no tenga tanto glamour, sigue siendo una de las profesiones más demandadas del mercado. Sin embargo, definir las áreas de conocimiento que hay que dominar para ser un científico de datos no es tarea fácil. De hecho, dio origen a una curiosa, colorida e incruenta “batalla de diagramas de Venn”. Desde el original, creado en 2010 por Drew Conway,:

Pasando por versiones más elaboradas como la de Michael Malak de 2014:(...)

O esta otra versión del original anotada por Gartner:(...)

Lo que está claro es que un perfil de Data Scientist requiere una compleja combinación de habilidades, conocimientos y experiencia que ha ido evolucionando con el tiempo.

Hace unos años, los perfiles más buscados solicitaban experiencia en Hadoop, HDFS, Big Data y Map Reduce (es decir, más orientado a ingeniería). En nuestro blog tenemos una miniserie sobre estos conceptos, por si alguien tiene interés. Sin embargo, hoy en día las palabras clave son “Deep Learning”, Analíticas en tiempo real, y Blockchain. Seguramente, en unos años, serán sustituidas por otros términos que hoy día no existen.

¿Y entonces, quienes son los data scientist de hoy?. Pues son analistas, programadores en R o Python,  expertos en machine Learning, ingenieros de datos … Da igual cómo les llamemos. La descripción del perfil es como la cara de los Reyes Magos (el unicornio morado, en EEUU). Es muy difícil encontrar individuos que reúnan todas los conocimientos, habilidades y experiencias necesarios. Así que lo más habitual es trabajar con equipos formados por personas expertas en varios de estos campos para así, entre todos, emular al perfecto Data Scientist.


5. Data Science es una ciencia, pero…

Pero también es un arte

Al hablar de ciencia de datos, de algoritmos, de modelos, de lenguajes de programación etc., parece que estamos hablando de una ciencia exacta, donde no hay cabida para la subjetividad. Pero veremos que no es así. La ciencia de datos, es una ciencia, sí, pero también es un arte. 

Todo el proceso, desde plantearse las preguntas adecuadas, decidir qué datos hacen falta para responderlas, capturar esos datos, tratarlos, modelarlos, reducirlos, analizarlos, desarrollar modelos a partir de ellos, valorar esos modelos, inferir resultados, sacar conclusiones, visualizarlas, presentárselas a otros… En todos estos pasos hay cabida a un punto de subjetividad que dependerá de nuestra experiencia, de nuestro criterio, o incluso de nuestra inspiración. Puede haber muchas soluciones distintas para un mismo problema, lo difícil es dar con la óptima. Incluso definir cuál sería la óptima

Es importante ser conscientes de ello ya que, aunque lleva tiempo desarrollar la experiencia y la intuición necesarias, “el mejor escribano echa un borrón”,

Como nuestra, un ejemplo de correlación espuria de la web de Tyler Vigen, que nos muestra la aparentemente ajustada correlación entre en consumo de queso por persona y el número de personas que murieron enredadas en sus sábanas. (...)

Está claro que, el Data Scientist es el que debe estar ahí para preguntarse ¿Tiene sentido este resultado?, por muy bien que se ajusten los datos al modelo o muy ajustada que sea la precisión.

Y con esto, terminamos.

Esperamos haber aclarado algunos errores habituales sobre ciencia de datos, pero somos conscientes que la vertiginosa evolución tecnológica en este campo traerá de la mano muchas más. En cualquier caso, es un tema complejo, pero apasionante, que, queramos o no, ya se ha hecho un hueco en nuestras vidas.

Publicaremos el vídeo y el post, este jueves (hoy). También podéis enviar vuestras preguntas a través de este canal.

Estad atentos a nuestros canales (Página de Eventos, blog, y redes sociales) para la convocatoria de nuestro weminar de abril.

No comments:

Post a Comment