El equipo de Voyager Labs en el National Library Hackathon

noviembre 29, 2017

Un equipo de primera categoría de científicos de datos de aprendizaje automático e ingenieros de software de Voyager Labs desentrañó el mundo de los datos no estructurados en un hackathon de 24 horas en la Biblioteca Nacional.  El desafío era organizar y revelar un vasto conjunto de tesoros nacionales enterrados en la biblioteca, incluidos millones de libros, manuscritos, fotografías, carteles, canciones y grabaciones, películas, mapas antiguos, obras de arte y más, de una forma que hiciera que estas raras colecciones estén al alcance del público. Nuestro equipo fue más allá de este desafío y no solo encontró una forma de organizar y clasificar este vasto conjunto de datos no estructurados: también lo vincularon con fuentes externas de información en Internet, como Wikipedia, para crear una fuente integral de información que todos ahora podrán usar y disfrutar.

Un vasto conjunto de tesoros ocultos

La Biblioteca Nacional aloja una inmensa colección que refleja miles de años de creación cultural en forma no estructurada.  Esto incluya una colección de más de 150 000 imágenes (fotografías, carteles, recortes de periódicos, etc.) de profunda importancia cultural que no prácticamente no estaban al alcance del público.  Clasificar esta colección y formar una que tenga sentido manualmente es una tarea imposible; por eso, la Biblioteca Nacional decidió llamar a las mentes de primera categoría del mundo de la tecnología para que la ayudaran a crear un sistema que clasifique, etiquete, ordene y aporte significado a estos tesoros.

Hacer uso de los algoritmos de aprendizaje profundo para automatizar el descubrimiento

Nuestro equipo de científicos de datos e ingenieros de software estuvieron a la altura del desafío y, en 24 horas (impulsados por nada más que pizza), lograron planificar, desarrollar y crear un sistema para la clasificación de conocimientos profundos y aplicarlos a esta rara y extensa colección.  El uso de algoritmos de aprendizaje automático y el aprendizaje profundo les permitió crear un sistema para automatizar la clasificación y aportar significado a estas piezas de historia previamente aisladas.

Ampliar la búsqueda de información más allá de la esfera de la biblioteca

Nuestro equipo pudo entonces vincular cada tesoro con un vasto conjunto de información de otras fuentes de datos relevantes en línea, por ejemplo, Wikipedia, la Biblioteca del Congreso e incluso YouTube, mediante el uso de conceptos que descubrieron estaban conectados con cada imagen o elemento (por ejemplo, ubicación, asistentes, fechas y mucho más).  Esto les permitió crear una plataforma que vincularía toda la información relevante conectada con un tema específico y disponible en el mundo virtual.

Ron Pick, Dan Ostrosky, Eyal Hochman y Ofir Olivenbaum fueron nuestros representantes pioneros en el hackathon y estamos muy orgullosos de sus logros. Llegaron a la ronda final y participaron en hacer que estos tesoros nacionales estén al alcance del público.  Esperamos que el sistema que crearon siga siendo de utilidad para los estudiantes e investigadores en su búsqueda de información y conocimientos.

 

hackathon pitch hackathon

Share this post