Data Science vs Data Analytics: parecidos, pero no iguales

Tuesday, 25 July 2017

Data Science vs Data Analytics: parecidos, pero no iguales


La literatura técnica sobre Big Data a veces resulta un poco confusa. Hay muchos términos que suenan igual de tan parecidos, definiciones que se solapan, límites difusos. También sentimos que "nos faltan palabras". Hay que “inventar” nuevos términos en cada idioma para referirse a estos conceptos, o bien rendirse, en aras de no colaborar a aumentar la confusión, a usar los términos en inglés.
En este post vamos a intentar aclarar la diferencia entre dos de estos conceptos con los que nos encontramos tantas veces cuando trabajamos con Big Data: “Data Science” y “Data Analytics”. Antes de seguir leyendo, párate un par de minutos a pensar…
 
Figura 1: ¿Conoces la diferencia?
Figura 1: ¿Conoces la diferencia?.

¿Qué es Data Science?


En los últimos años ha habido mucha controversia sobre el término Data Science. El proceso de analizar datos se ha llamado de distintas formas, dependiendo de las distintas tendencias que ha habido en Business y Marketing en cada momento. Del concepto de Data Mining (Minería de datos) que se acuñó en los años 90, se pasó al de Analytics en 2006, de a mano de la gran acogida que tuvo la introducción de Google Analytics (Diciembre 2005). Aunque el término Data Science empezó a usarse en 1996, no fue hasta 2009 en que ganó popularidad. Gregory Piatetsky-Shapiro escribió un post muy interesante sobre esta evolución terminológica, analizando la presencia de los nuevos nombres en las búsquedas en Google y menciones en redes sociales.

Una vez empezó a sonar el término Data Science en las redes, empezaron las críticas. Que si no era una ciencia "de verdad", que si el nombre no tenía sentido, que si era una etiqueta innecesaria, que si no existía una definición clara... Pete Warden rebate todas ésta críticas en otro interesante post de O´Reilly Radar, y nos anima a ser prácticos y asumir que hay un grupo de profesionales que trabaja más allá de los ámbitos muchas veces estancos que dominan el mundo corporativo e institucional, usando todo tipo de enfoques (herramientas y metodologías de captura, análisis, visualización e interpretación de datos) para sacar a la luz qué nos pueden decir los datos, y localizar esos prometedores "hilos" de los que tirar para llegar a Insights que pueden aportar un gran valor a la empresa.

También hubo controversia en cuanto a los esfuerzos por acotar mejor el término en forma de "guerra" de diagramas de Venn. Desde el primero, creado por Drew Conway (publicado en 2013)


Figura 2: Diagrama Venn Data Science (Drew Conway)
Figura 2: Diagrama Venn Data Science (Drew Conway).


Pasando por éste otro publicado en 2016 por Gregory Piatetsky-Shapiro,

Figura 3: Diagrama Venn Data Science (Piatetsky-Shapiro)
Figura 3: Diagrama Venn Data Science (Piatetsky-Shapiro)


O éste otro publicado por Gartner  y más enfocado al campo concreto de Data Science.

 
Figura 4: Diagrama Venn Data Science (Gartner)
Figura 4: Diagrama Venn Data Science (Gartner).

Knuggets publicó un post con un interesante resumen de esta peculiar "batalla" , en el que aparecen éstos tres ejemplos entre ¡12 contendientes! (incluido de Steve Geringer, en cuyo centro, donde debería esta el Data Science Team, Geringer sitúa un ¡unicornio!).

A pesar de que resulta un poco intimidante atreverse a definir algo sobre lo que tantos expertos no son capaces de ponerse de acuerdo, nos quedamos con la visión práctica de Peter Warden y nos atrevemos a definir de forma breve (y sin diagramas de Venn por medio, que ya hay bastantes), qué es Data Science.

Data Science es un campo del Big Data cuyo objetivo es extraer e interpretar, en clave del negocio de que se trate, la  información relevante contenida en las ingentes cantidades de datos de todo tipo que se generan por la propia actividad de la empresa y sus relaciones con terceros (clientes, mercado etc). Para ello, los Data Scientists diseñan, desarrollan y ponen en marcha complejos algoritmos matemáticos basados en programación estadística, machine Learning y otras metodologías, que son la base que permite a las herramientas de toma de decisiones de la empresa, hacerlo de manera "mucho más" informada, es decir, tomar decisiones basadas en los datos (data-driven). Para ello, trabajan con herramientas que permiten manejar de forma segura y eficiente grandes volúmenes de información, así como de crear visualizaciones que faciliten la comprensión de los Insights o patrones de comportamiento detectados.

¿Qué es Data Analytics?


Data Analytics podría considerarse algo así como una versión reducida de Data Science. Algo parecido a una aplicación concreta, enfocada a un objetivo definido que conocemos previamente, o del que apenas conocemos nada, pero sabemos que está ahí.

El Business Analyst busca en las distintas fuentes de información del negocio (estructuradas o no) patrones que expliquen rendimientos pasados y que puedan servir para predecir comportamientos futuros. Para ello, determina qué modelos analíticos y de visualización de datos se adaptan mejor a las necesidades de la empresa.

Y ¿quién ha creado estos modelos?

Está claro. El Data Scientist. Por ello, lo más habitual es que el Data Scientist tenga sólidos conocimientos matemáticos y de programación, El Business Analyst, por otra parte, debe conocer en profundidad la operativa del negocio, pero no necesita ser capaz de generar los algoritmos, sino de saber elegir cuál es el más adecuado en cada situación.

Ojo, que cuando hablamos de Business Analyst, hablamos de un profesional que usa Big Data Analytics. No lo confundamos con los analistas especializados en sistemas de Business Intelligence tradicionales, en los que se maneja un conjunto de datos mucho más reducido (limitado en cuanto a fuentes, formatos etc) y tienen, por tanto una capacidad de análisis y predicción mucho más limitada.

 

Entonces, ¿Cuál es la diferencia?


Pues básicamente, la diferencia está en el enfoque con el que cada uno de estos profesionales trabaja con los datos.
El Business Analyst tiene un enfoque muy ligado a la operativa del negocio. Trabaja sobre "territorio conocido" (we either know we know or know we don’t know). Busca en los datos soluciones a problemas conocidos, o intenta predecir comportamientos futuros basándose en conjuntos de datos históricos e intentando correlacionarlos con variables aleatorias, pero conocidas. Por ejemplo, podría intentar predecir el volumen de tráfico esperado en una ciudad según las condiciones meteorológicas.
 
Figura 5: Ámbito de Data Analytics
Figura 5: Ámbito de Data Analytics.
  
El Data Scientist, sin embargo, tiene una perspectiva mucho más abierta, más holística. Es un trabajo más relacionado con descubrimiento (we don’t know what we don’t know ), con investigación, podríamos decir, básica, que va más allá de buscar soluciones a problemas concretos y busca definir estrategias de negocio para el futuro. Por ejemplo, intentar identificar qué tecnologías aun por desarrollar pueden tener un mayor impacto en futuro de la empresa.

Figura 6: Ámbito de Data Science
Figura 6: Ámbito de Data Science.

Este fragmento de una infografía publicada por una universidad americana ayuda a resumirlo que hemos visto en este  post:
 
Figura 7: Infografía Business Analytics vs Data Science
Figura 7: Infografía Business Analytics vs Data Science.

 

Conclusión


Imaginar qué historia nos cuentan los datos. Saber qué preguntas interesa plantear y buscar cómo llegar a las respuestas. Y atacar esos datos desde distintos enfoques, para ver qué nuevas preguntas surgen de ese análisis. Para ello, lo fundamental es tener una mente abierta, curiosa, capaz de plantearse esas cuestiones, que a veces incluso pueden parecen absurdas, y buscar los medios para responderlas (o crearlos, si no existen). Y también, plantearse, una vez conseguidas esas respuestas, si tienen realmente sentido o no.

La imprecisión del Data Science se debe a la enorme amplitud del campo que abarca (el adjetivo "Big" en este caso no es exclusivo de los "Data"). Es aplicable a toda aquella actividad humana (incluyamos aquí la observación y registro de fenómenos naturales) en la que se generan y almacenan datos. Por tanto, su ámbito de aplicación, no sólo es ya muy amplio, sino que no para de crecer con el imparable aumento de la capacidad de almacenamiento de información y el abaratamiento de estas tecnologías.

Es por ello que resulta tan complicado definir exactamente el perfil de Data Scientist o de Data Analyst. Se tocan tantos temas que implican complejas tecnologías que se hace necesario definir nuevos roles como Data Engineer, o Data Visualization Expert... Pero al mismo tiempo, los perfiles de las personas que desempeñan estos roles, sus formaciones académicas y sus experiencias profesionales son de lo más variopintas. Por ello, muchas veces los límites están desdibujados. Fuera de las grandes empresas que puedan permitirse tener grandes equipos superespecializados, resulta muy interesante tener profesionales polivalentes que cuando "toque" hace labores de Data Scientist, las puedan llevar a cabo sin problemas, pero tampoco tengan inconveniente en  restringir su ámbito de actuación al más propio del Data Analytics.

Entonces, ¿Qué sentido tiene plantearse todo esto? El sentido es pararse un momento a reflexionar  sobre aspectos por los que normalmente pasamos muy por encima. Comprender que intentar explicar la complejidad del Data Science nos puede llevar a un galimatías terminológico, pero que lo importante es ser prácticos y ver cómo todo esto nos puede llevar a tomar mejores decisiones basadas en los datos. 

No comments:

Post a Comment