LUCA Talk: Prediciendo el crimen en Nueva York con Big Data

Thursday, April 12, 2018

LUCA Talk: Prediciendo el crimen en Nueva York con Big Data

¿Recuerdas Minority Report, la película de Steven Spielberg y Tom Cruise? Trataba de una división de la policía llamada PreCrimen, que con la ayuda de tres mutantes tenía visiones del futuro y la habilidad de detener un crimen antes de que este ocurriera.

Aunque la realidad no es igual que en las películas, hoy en día con el uso del Big Data, también se pueden predecir crímenes en ciudades grandes. La ciudad de Nueva York siempre ha llamado mucho la atención, no solo por ser centro de negocios, moda y cultura, sino también por ser bastante innovadora. Por esta razón, es la ciudad idónea para este proyecto tan interesante liderado por Santiago Gónzalez, el Director de Tecnologías e Innovación de Synergic Partners, el área de consultoría estratégica y tecnológica de LUCA y desarrollado en colaboración con la Columbia University y el Ayuntamiento de Nueva York.



El webinar de este pasado 10 de abril fue todo un éxito y con la presentación interactiva de Santiago González se pudieron ver los modelos analíticos utilizados en el proyecto, y qué factores se tomaban en cuenta para obtener resultados. El clima, la hora del día y el tráfico, por ejemplo, marcaban una diferencia en cuanto al nivel de crimen. En días de mucho tráfico, el NYPD se encuentra controlando ciertas calles, y hay menos posibilidades de que puedan llegar con rapidez a la escena de un robo. También se mostró un mapa interactivo de la ciudad, donde destacaba Brooklyn como la zona donde se observa más actividad criminal y Staten Island por ser la más segura.

A continuación, Santiago González responde las preguntas que nos dejaron en el chat del webinar, y que, debido al gran volumen, no se pudieron responder en directo.

¿Podría ser un factor de delito a tener en cuenta la apertura o cierre de negocios donde se suele robar? ¿Esto alteraría las estadísticas de delitos de esa zona concreta? 

Ese tipo de delitos no está contemplado dentro del estudio de crímenes, y creo que las fuentes asociadas a este crimen son diferentes a las que hemos usado. Hemos intentado usar las fuentes que, de alguna manera, tienen relación causa-efecto con el comportamiento humano ante un crimen (¡y faltan muchas otras fuentes! sobre todo para crímenes pasionales). Pero para el caso de cierre de negocios, habría que analizar movimientos de shopping, competencias, interés público, blanqueo de capitales, etc.

¿Qué posibilidad hay de aplicar este modelo en otras ciudades?

Como tal, el modelo puede ser directamente aplicable si y solo si existe en esa ciudad el concepto de precinto policial (zona controlada por una estación de policía). En caso contrario, habría que modificar el modelo y analizar la granularidad de los datos, para ver cómo enfocar la posible predicción.

¿Las bases de datos sólo las habéis obtenido del Data Open Source de New York? ¿Habéis tenido en cuenta el factor cultural a la hora de la clasificación de las variables?

Open Data New York (http://opendata.cityofnewyork.us/), es el origen de la gran mayoría de fuentes. Otras fuentes (como el NY Times) se saca directamente del servicio Open. Pero todas son Open Data. Si como factor cultural te refieres a cómo influye la información sociodemográfica al resto de variables, sí. Es algo muy interesante de analizar, ya que afecta directa e indirectamente sobre la clasificación de "crimen" y de "no crimen". Cosas como que, por ejemplo, un criminal de una determinada característica étnica, racial o social no actúa sobre otros iguales en zonas de su clase social.

En la comparación de todos los modelos ¿cuál es el modelo que se eligió para entrenarlo con los datos? 

El mejor, con diferencia, tanto en estabilidad a lo largo del tiempo como en resultados, es el XGBoost. Pensaba que las series temporales ARIMA & family iban a dar buenos resultados, pero me equivoqué...

¿Cuál es la "resolución" en tiempo y espacio para la predicción del crimen? 

En espacio es un precinto policial (aproximadamente 1,3km de radio a la redonda) y en cuanto al tiempo, es periodos de una hora (por ej. de 12 a 13). Para asegurar calidad en el modelo, recomendamos desde Synergic que no se predigan ventanas de tiempo de más de 1 mes.

¿Los datos con los que habéis entrenado el modelo son oficiales de la policía de New York? ¿Y qué tipo de datos os han proporcionado? 

Si, son totalmente oficiales. Es más, al principio los datos los sacamos del portal Open Data. Pero como tardaban en subir datos, luego directamente nos pasaba la propia Policía cada mes. Tal cual lo que viene en el portal Open Data es lo que teníamos, echad un vistazo a este enlace.

¿Qué opinas de la realización de perfiles psicográficos a través de Big Data (Cambridge Analytica) para la prevención de conductas violentas?

Siempre que seamos capaces de generar perfiles tipo que representen los patrones de conducta de criminales a partir de redes sociales, y NOSOTROS no seamos (o no queramos ser) capaces de inferir que personas son las que representan dichos patrones, estoy de acuerdo con utilizar este enfoque. Quiero decir que, nuestro objetivo no es inferir las personas, sino ayudar a la policía a que los infieran ellos. Para nosotros, TODOS los datos deben ser anónimos, agregado y el modelo de inferencia, a poder ser, basarse en Sistemas Basados en el Conocimiento (KBS) de clasificación heurística o jerárquica con procesos de abstracción. Fuera de esto, mi opinión es que el creador del dato (cada persona que genera la información sobre su vida) es el propietario del mismo y el que debe dar permiso o no de usarse para terceros.

Estad atentos a nuestros canales (Página de Eventos, blog, y RRSS) para la convocatoria de nuestro próximo webinar.

2 comments:

  1. Esto debe ser como el proyecto aquel de tiempo de atención de las patrullas en una parte de Madrid, en el que participó un matemático del ramo, planteando los distintos algoritmos y estableciendo una dinámica de recorridos. Interesante, no tengo disponibilidad, pero si lo dejais en stream le echaré un ojo. :-)

    ReplyDelete
    Replies
    1. Hola, hemos actualizado el post con el vídeo y las preguntas que se hicieron en directo. Esperamos que te guste!

      Delete