Big Data con Privacidad

Thursday, 19 October 2017

Big Data con Privacidad

Todas las revoluciones tecnológicas, todos los cambios de paradigma, han tenido detrás visionarios que han luchado por impulsar el cambio y la innovación, pero también han tenido que luchar contra las reticencias, las dudas y los miedos de los resistentes al cambio. Sin embargo, aquellos avances que realmente demuestran su utilidad, acaban siendo aceptados mayoritariamente por la sociedad.



¿Los avances tecnológicos son buenos o malos?


Un “avance tecnológico” aparentemente tan sencillo como es el tenedor, sufrió no pocos vaivenes antes de ser aceptado. Considerado en sus orígenes como “peligroso” (probablemente por la falta de pericia de quienes los usaban), llegó incluso a ser denominado “instrumento diabólico” por San Pedro Damián. En la corte de Carlos V de Francia fue rechazado por considerarse “afeminado y refinado” y no fue hasta principios del siglo XIX en que se generalizó su uso.

La tecnología no es buena ni mala en sí misma. Son las personas que la usan las que pueden hacer de ella un uso productivo y constructivo o, todo lo contrario.

El gran avance tecnológico que supone la aplicación de analíticas Big Data a nuestro mundo de hoy  se enfrenta, como el humilde tenedor, con miedos y detractores. El tenedor, por su evidente utilidad, acabó imponiéndose. Pero no es menos cierto que, desde los primeros modelos, parecidos a trinchadores, a los que se popularizaron en el siglo XIX hubo una clara evolución que fue capaz de demostrar que, además de ser una innovación muy práctica, también era segura.


Figura 1: El tenedor, en su día, también fue una innovación "tecnológica".
Figura 1: El tenedor, en su día, también fue una innovación "tecnológica".(fuente)


¿Qué miedos despierta el Big Data?


La principal preocupación que le surge al ciudadano de a pie es la posible invasión de su privacidad. No existe una definición única del concepto de privacidad. Las distintas definiciones suelen girar en torno al respeto, autonomía y auto-determinación  de los individuos. Y de cómo el individuo debería ser protegido de una intrusión no razonable en esa autonomía, sea por parte de gobiernos o de instituciones privadas.

Básicamente, en el ámbito de las tecnologías de la información, el concepto de privacidad,  tiene que ver con el derecho de los individuos a controlar el uso de su información personal. Podríamos resumirlo en:

Privacidad es el derecho de los individuos a ejercer control sobre cómo la información sobre ellos es recogida, tratada y usada”

Hoy día, en que la privacidad se ha convertido en este sentido en la piedra angular de la nueva ética profesional, de negocio y de investigación es preciso replantearse conceptos como el “manejo justo” de los datos para los usuarios y que las diferentes disciplinas de negocio y científicas tengan claros sus principios a este respecto.

Para conjurar esos miedos, se impone poner el foco en tres nociones esenciales seguridad, control, y transparencia, y asumir que adoptar la privacidad y la protección de datos como valores esenciales es la clave para mover el debate desde Big Data contra Privacidad” hacia el “Big Data con privacidad”.

  • Seguridad: La seguridad en el intercambio de información de carácter personal es el medio técnico por el cual se garantiza la protección de un derecho fundamental y hay que dedicar el tiempo y los recursos que sean necesarios para su correcta implementación.
  • Control: que el usuario siempre tenga el control sobre sus datos en base a los derechos de acceso, rectificación y cancelación, como recoge La Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos
  • Transparencia: que el usuario pueda saber en todo momento qué datos suyos se almacenan y con qué propósito. Por ejemplo: “Almacenamos tu número móvil para poderte enviar una alerta cuando haya un movimiento en tu cuenta”.


¿Cuál es la mejor manera de implementar los principios de privacidad en las soluciones tecnológicas de Big Data?


Hay múltiples estrategias que ayudan a aquellos que trabajan con Big Data a respetar la privacidad de los usuarios a lo largo de las distintas a fases de la cadena de consumo de los mismos, pero el enfoque más holístico es el del marco de Privacidad por Diseño (PbD), un conjunto de soluciones que tienen por objeto:

  • Identificar y gestionar los riesgos desde el comienzo del tratamiento de los datos.
  • Aplicar tecnologías de protección de la privacidad en todas las fases.

Este concepto fue aplicado en el ámbito legislativo por primera vez por las autoridades de protección de datos de Ontario (Canadá) en la década de los noventa. Se basa en los siguientes principios fundacionales:

  • Privacidad proactiva, no reactiva; prevenir, no remediar (Principio de “Accountability") , pagina 26 del Código de Buenas Prácticas en Protección de datos para Proyectos Big Data).
  • Privacidad incrustada en el diseño.
  • Privacidad como la configuración predeterminada.
  • Funcionalidad total (“todas las partes ganan”, en lugar de, “si alguien gana otra persona pierde”).
  • Seguridad punto a punto – protección durante todo el ciclo de vida.
  • Visibilidad y transparencia.
  • Respeto por la privacidad del usuario – que todo gire en torno al usuario.

El nuevo Reglamento General de Protección de Datos (RGPD, en inglés GDPR), de obligado cumplimiento a partir del 25 de mayo de 2018 introduce, como una de sus novedades, el reconocimiento explícito del concepto de Privacidad por Diseño y hace asimismo especial hincapié en la Privacidad por Defecto. Un ejemplo práctico de “Privacidad por defecto” sería que, al darse de alta un nuevo usuario en una red social, la configuración de seguridad por defecto sea las más respetuosa con su privacidad .

Niveles de protección de la privacidad y tecnologías aplicadas


Conviene, en este momento, precisar que no es preciso anonimizar siempre que se trabaja con Big Data. El término privacidad, es un concepto más amplio, que abarca conceptos como la seguridad o el gobierno del dato. La anonimización es necesaria en entornos de uso de información no vinculada a cliente, es decir, cuando no hablamos de datos personales. Pero en una gran parte de los casos, como, por ejemplo, cuando necesitamos hacer una analítica de BI que no suponga perfilado de cliente, no necesitamos anonimizar. Un buen ejemplo para entenderlo es que, para poder generar una factura a un cliente, no podemos anonimizar, porque es necesario saber qué conceptos están vinculados a qué cliente.

Como hemos mencionado antes, el marco de Privacidad por Diseño, implica trabajar con tecnologías y procesos que verifiquen la conformidad con las normativas de privacidad a todos y cada uno de los niveles de la cadena de “consumo” de los datos. Vamos a ver algunos ejemplos ilustrativos que comienzan en el proceso de carga de los datos (correspondería en la Figura 2 a la etapa de "Pre-Hadoop Process validation") por toda la cadena hasta el de generación de informes ("Reporting Testing").


Figura 2: Arquitectura de Big Data y puntos de verificación/validación de conformidad en las áreas de procesado ETL: Extracción, Transformación y Carga (Load).(fuente)


1. Primera fase: Validación Pre-Hadoop

a) Preanonimización de los microdatos


La privacidad comienza antes incluso de empezar a almacenar los datos en las bases de datos (Hadoop). Así pues, la preanonimización de los microdatos es la parte inicial del proceso de anonimización, en el que se determinarán las posibles variables de identificación, aquellas que puedan ayudar a identificar al usuario final de manera directa (DNI) o indirecta (dirección).

Una vez que se ha realizado una categorización de las variables se establecen los criterios de protección necesarios para garantizar la privacidad de las personas, tratando de minimizar la cantidad de información personal que vaya a ser utilizada durante el proceso de anonimización.

Por tanto, en esta primera fase del proceso se determina, según las regulaciones específicas de cada país, qué tipo de datos se puede almacenar y durante cuánto tiempo.

b) Eliminación/reducción de variables


La siguiente fase del proceso de anonimización consiste en la eliminación/reducción de variables. El objeto de esta fase es reducir al mínimo necesario la cantidad de variables que permitan la identificación de las personas, restringiendo el acceso a la información confidencial estrictamente al equipo de trabajo implicado en el proceso.

Algunos aspectos a tener en cuenta para abordar la eliminación o enmascarar las variables de identificación pueden ser los siguientes:

  • Determinar la finalidad de los datos anonimizados.
  • Establecer las variables confidenciales necesarias para el tratamiento de los datos anonimizados e identificar las variables de confidencialidad que no vayan a ser necesarias en el tratamiento de los datos anonimizados.
  • Eliminación de datos identificativos directos o indirectos no necesarios: nombres, fecha de nacimiento, teléfono, DNI, email, dirección postal, número de cuentas bancarias, matrículas de vehículos, identificador dispositivo móvil, número de serie, dirección IP, identificadores biométricos, fotografía o imagen, etc.
  • Control segregado de usuarios con acceso a los datos personales y usuarios con acceso a los datos anonimizados.
  • Utilización de rangos para enmascarar a las personas cuando existen microdatos concretos que permiten la identificación directa de personas o colectivos específicos.
  • Disponer de una política de uso de claves para ocultar la identificación de las personas.

El objetivo de estos procesos es someter a los datos anonimizados a un proceso de agregación. Este proceso sirve para evitar que se pueda identificar a individuos concretos. Por ello se agrupan por perfiles, por ejemplo, creando rangos geográficos o temporales con el objeto de evitar que los datos puedan facilitar la identificación de individuos concretos.

Tenemos un ejemplo en la aplicación del INE ¿Cuántos se llaman...? donde encontramos un ejemplo práctico de uso de agregación (en este caso de resultados). Si buscamos un nombre o apellido concreto, la aplicación no ofrece ningún resultado si la frecuencia "es inferior a 20 para el total nacional (o 5 por provincia)".

c) Anonimización de los procesos y de datos locales


Tras estas dos fases de “preparación” de los datos, llega el momento de aplicar técnicas y estrategias de anonimización de los procesos y anonimización de datos locales.

  • Preferencias de privacidad.
  • Estrategias de cifrado y enmascaramiento de la identidad.

Las preferencias de privacidad tienen que ver con la protección en la fase de generación de datos. La generación de datos puede ser activa, cuando el propietario de los datos los facilita a un tercero, o pasiva, cuando los datos se generan por su actividad online (por ejemplo, navegar por internet o participar en una red social). Para evitar que esto ocurra sin que el usuario sea consciente de ello, la Privacidad por Diseño especifica que las opciones por defecto sean lo más respetuosas posible con la privacidad del usuario y que sea el propio usuario, el que tenga que tomar la iniciativa de desactivar o rebajar el nivel de protección cuando así lo desee.

En estos casos, hay dos estrategias principales de protección de la privacidad.
  • Por un lado, las de restricción de acceso, como las extensiones "anti-tracking", bloqueadores de anuncios o scripts, y herramientas de cifrado. Actualmente existen, y cada vez más, herramientas más especializadas, tipo complementos de navegador, con una aproximación de “bloqueo” o “gestión” de determinados contenidos de terceras partes: Ghostery, Mozilla Lightbeam, PrivacyBadger, AdBlockPlus, etc.
  • Por otro, las herramientas de cifrado de datos y enmascaramiento de la identidad  que introducen pequeñas distorsiones ("ruido") en los datos y los modifican de forma que no sea posible identificar a un usuario individual. Por ejemplo:
    • El algoritmo de hash permite que, partiendo de un mismo dato o microdato, podamos generar siempre la misma huella digital pero partiendo de una determinada huella digital nunca podremos obtener el dato original, garantizando la confidencialidad al tratarse de una operación matemática de un solo sentido. Sin embargo, un algoritmo de hash por sí solo no es suficiente para hacer irreversible la anonimización, ya que pequeñas cadenas de texto como, por ejemplo, el código postal de una persona, un número de teléfono, etc., pueden ser fácilmente reidentificables. Para evitarlo, los algoritmos de hash se usan en combinación con algoritmos de cifrado.
    • Un algoritmo de cifrado homomórfico permite realizar operaciones con datos cifrados de tal manera que el resultado de las operaciones es el mismo que si las operaciones se hubieran realizado con los datos sin cifrar
    • El proceso de anonimización puede ser monocapa o multicapa. Cuando la anonimización de las variables se realiza una única vez y se da por finalizado el proceso se denomina monocapa. Sin embargo, la reanonimización de variables o anonimización multicapa puede proporcionar garantías adicionales para evitar la re-identificación de las personas. Por ejemplo, a medida que los datos vayan pasando de un departamento a otro, se pueden realizar diferentes procesos de anonimización.
    • Otras técnicas que pueden usar son: algoritmos de sello de tiempo, técnicas de perturbación y técnicas de reducción de datos.


En resumen:

En esta fase los datos son agregados y anonimizados antes de ser enviados al analista que trabajará con ellos en la fase ETL. La anonimización de datos debe considerarse como una forma de eliminar las posibilidades de identificación de las personas. Las técnicas de anonimización se aplican sobre los datos en bruto.  En este proceso, los valores reales (por ejemplo, nombres de empleados o de clientes “María López”, “Juan Pérez” etc.) se sustituyen por otro valor (por ejemplo “Cliente 1”, “Cliente 2”, etc.). Si el mismo valor original aparece varias veces en el conjunto de datos, se sustituirá siempre con el mismo valor de reemplazo (por ejemplo, “María López” se sustituye siempre por “Cliente 1”). De esta forma, se respeta la privacidad de los datos sensibles, al mismo tiempo que se preserva la información sobre patrones de ocurrencia de ese valor en el dataset que puede ser de interés para el análisis. Posteriormente, se aplican otras técnicas de anonimización como el hashing, técnicas de generalización, adición de ruido, perturbación, anonimización por capas etc. (Ver Orientaciones y Garantías en los procesos de anonimización de datos Agencia Española de Protección de Datos).


2. Segunda Fase: Validación de procesos Map Reduce


El almacenamiento distribuido característico de Hadoop nos permite, en la fase de Validación de Procesos Map Reduce ("Map Reduce Process Validation") aplicar las especificaciones de privacidad relativas a cómo reaccionan los datos al hacer una query, y añadir restricciones a la compartición de datos entre distintos procesos. Por tanto, el carácter distribuido de Hadoop, cuyo objetivo inicial era superar los desafíos que plantea trabajar con grandes volúmenes de datos en cuanto a eficiencia, seguridad y fiabilidad, también se puede aprovechar para implementar medidas adicionales de privacidad de la información.

3. Tercera fase: Validación del proceso ETL


En la fase de "Validación del proceso ETL" se debe comprobar que la lógica del almacenamiento cumpla también los requisitos de privacidad. La seguridad de los datos, en cuanto al control de accesos, se puede implementar a nivel de fichero, de base de datos, de comunicaciones y cifrado de aplicaciones.

También se produce una transformación de los datos. Es donde se aplican las analíticas avanzadas Big Data que nos van a permitir extraer los Insights que reflejaremos en la fase final. En este momento ya no se trabaja con datos hash, sino con identificadores únicos asociados a ellos.

  • Se aplican rutinas de agregación y anonimización adicionales a los valores atípicos para mejorar su nivel de enmascaramiento,
  • Se aplican técnicas de generalización como por ejemplo, las bandas de edad para evitar tener el dato preciso que pueda ayudar a identificar un registro individual,
  • Se combinan y modelan distintas franjas temporales…


Como en la fase anterior, los resultados son siempre valores agregados, de forma que describen comportamientos grupales y no individuales.

Aunque se trabaje con datos anonimizados, y los resultados se ofrezcan siempre de forma agregada, en muy importante, mantener un control estricto del acceso a la información a lo largo de todo el proceso (desde las fases de ingesta de dato a las fases finales). Es fundamental asegurarse de que la incorporación de nuevos conjuntos de datos no implique riesgos inadvertidos de des-anonimización de los datos originales.

4. Cuarta fase: Reportes


En la fase de Reportes ("Reporting Testing") la comprobación de cumplimiento de los términos de privacidad tiene que ver con asegurar que se respeta la "finalidad" para la cual se han tomado los datos, comprobando que en los informes no aparezca información sensible. Es decir, asegurarse de que no se puedan recopilar más datos de los necesarios para los fines previstos, explícitos y legítimos.

También es fundamental que las políticas de publicación de resultados se apliquen de forma consistente y correcta. Para ello se aplica un conjunto de técnicas estadísticas que garanticen que no sea posible revertir el proceso de anonimización de los resultados obtenidos. Una de ellas es la anteriormente comentada de la Agregación de datos.

Conclusiones:


Como podemos apreciar, la privacidad en Big Data es un tema extremadamente complejo que es necesario abordar a distintos niveles y donde las distintas técnicas de anonimización se deben aplicar de forma iterativa en múltiples puntos de la cadena.

También es necesario resaltar que no nos podemos conformar con las soluciones tecnológicas actuales sino que la gran velocidad a la que cambia el horizonte del Big Data requiere de un esfuerzo continuo e inversión en investigación de nuevas técnicas de protección de la privacidad como:

  • "esconder una aguja en un pajar" ("Hidding a needle in a haystack").
  • anonimización basada en la identidad ("identity based anonymization").
  • anonimización rápida de flujos en stream (para datos IoT).
Así como de una constante adaptación del marco regulatorio en los distintos países.

Estamos convencidos que, como en el caso del tenedor, el Big Data con privacidad acabará venciendo las reticencias y siendo aceptado como lo que es, una de las más potentes revoluciones tecnológicas de los últimos tiempos, pero es responsabilidad de todos los agentes implicados en el ecosistema asegurar que se hace de manera correcta, poniendo siempre por delante los intereses de nuestros usuarios de manera transparente y generando un clima de confianza.

No comments:

Post a Comment