LUCA Talk: Generación automática de textos mediante Deep Learning

Thursday, April 11, 2019

LUCA Talk: Generación automática de textos mediante Deep Learning

Las posibilidades que la aplicación de la Inteligencia Artificial ha traído consigo permiten el avance exponencial que estamos viviendo hoy en día en cuanto a sistemas de voz (asistentes virtuales, chabots, etc.). En este webinar hablamos sobre el potencial de utilizar la Inteligencia Artificial en tareas tales como la escritura automática de poemas o la predicción de la siguiente palabra que escribirás en tu teléfono.


En este webinar hablamos sobre la creación de sistemas inteligentes que nos permitan entender y procesar aquello que, justamente, nos hace humanos - el lenguaje - es hoy más que nunca una realidad gracias al uso de técnicas como el Deep Learning. Más concretamente, el modelado del lenguaje, el procesado del lenguaje natural, permite asignar una probabilidad a una determinada secuencia de palabras.


Carlos Rodríguez Abellán, Data Scientist en Aura, impartió el webinar sobre cómo crear, entrenar y probar algunos de estos modelos. Además, al final de la emisión dedicamos un espacio a la sesión Q&A con el experto para responder todas aquellas dudas y preguntas que surgieron y compartisteis a través del chat en directo. Compartimos en el blog algunas de las dudas que quedaron pendientes de contestar:

¿Cómo puede mejorar esto AutoKeras?, ¿Está suficientemente desarrollado para mejorar las decisiones de un data scientist? Entiendo que uno de los retos al afrontar este tipo de problemas es la elección del modelo y de los hiperparámetros asociados.

"La elección del modelo, la elección de la arquitectura (si el modelo escogido es una red neuronal) y, por supuesto, la elección de los hiperparámetros óptimos son decisiones críticas a la hora de conseguir la mejor solución. En general, el ajuste de los hiperparámetros es una tarea compleja y laboriosa que, si atendemos solo a modelos de redes neuronales es, si cabe aún más laboriosa (decidir número de capas y de neuronas, tipo de capas, funciones de activación, etc.).

Auto Keras, como software que asiste en la elección de muchos de estos hiperparámetros, es una gran herramienta para personas con no demasiado expertise en el mundo del Deep Learning. Pese a ser una herramienta muy potente - y con un potencial de evolución enorme a corto/medio plazo - mi opinión personal es que, dado un determinado reto, es más eficiente en cuanto a recursos (potencia de cómputo, de tiempo y mayor conocimiento de la solución) investigar cuál es el estado del arte para dicho reto e implementar las arquitecturas (o configuraciones de modelos) propuestas arrojará resultados muy similares a los obtenidos usand Auto Keras, si no mejores. Aunque esto es, por supuesto, mi opinión personal", comenta Carlos.

¿Hay un corpus de análisis de sentimiento Open Source?
  • Reviews de Amazon: http://jmcauley.ucsd.edu/data/amazon/
  • Reviews de IMDB: http://ai.stanford.edu/~amaas/data/sentiment/
  • Tweets extraídos con su API: http://cs.stanford.edu/people/alecmgo/trainingandtestdata.zip
Pero como imagino que preguntas por corpus en español, desgraciadamente los recursos disponibles en español son muchísimo más excasos (tanto de datasets como de modelos preentrenados). Te incluyo algunos ejemplos:
  • Reviews de papers: https://archive.ics.uci.edu/ml/datasets/Paper+Reviews
  • Reviews de Muchocine: http://www.lsi.us.es/~fermin/corpusCine.zip
  • Tweets en español: http://www.sepln.org/workshops/tass/2012/corpus.php
Una posibilidad es el uso de lexicons (como este de Kaggle). Pero, como verás, requieren de una revisión puesto que en general no son precisos y, posiblemente, no se adapten del todo al dominio sobre el que quieras entrenar el modelo. En cualquier caso son recursos muy útiles como punto de partida.

¿Conoces nuestros webinars? Visita la sección LUCA Talks en nuestra web

Para mantenerte al día con LUCA visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

No comments:

Post a Comment