‘Búsqueda Semántica de ImágeNes y Texto en HEmerotecas digitales (aBSINTHE)’

Ayudas a Equipos de Investigación Científica

Humanidades Digitales

2017

El objetivo es aplicar por primera vez a las hemerotecas digitales los últimos enfoques en aprendizaje profundo, expandiendo el valor de la prensa como repositorio histórico.

MÁS SOBRE

Marçal Rusiñol
INVESTIGADOR PRINCIPAL

Marçal Rossinyol Sanabra, Universidad Autónoma de Barcelona

 

EQUIPO DE INVESTIGACIÓN

Dimosthenis Karatzas, Josep Lladós Canet y Ernest Valveny Llobet, Universidad Autónoma de Barcelona; Lluís Gómez Bigordà, Centro de Visión por Computador.

ENTIDAD ASOCIADA

Universidad Autónoma de Barcelona

 

DESCRIPCIÓN

El objetivo es aplicar por primera vez a las hemerotecas digitales los últimos enfoques en aprendizaje profundo, expandiendo el valor de la prensa como repositorio histórico.

La información contenida en hemerotecas digitales tiene un gran valor cultural, histórico y antropológico, ya que puede ayudar en la comprensión del pasado. En España, las hemerotecas digitales contienen miles de títulos, resultando en millones de páginas de prensa histórica digitalizadas, y accesibles a través de la red. Normalmente, el formato de las publicaciones digitales es PDF con OCR, lo que permite buscar palabras en el texto de la publicación, pero este paradigma de búsqueda presenta ciertos límites.

Este proyecto ofrecerá soluciones para desbloquear los contenidos semánticos, tanto textuales como fotográficos, facilitando las búsquedas y brindando técnicas de visualización de datos avanzadas, para ayudar al acceso universal al conocimiento humanístico y cultural que aportan las hemerotecas digitales.

El estado actual de la técnica permite el uso de herramientas de procesamiento de lenguaje natural y de visión computarizada automática para analizar imágenes y texto proporcionando una descripción semántica de sus contenidos. La investigación se centrará en los últimos enfoques de aprendizaje profundo, aplicado por primera vez al contexto de prensa histórica. El resultado final del proyecto será una plataforma para el procesamiento y análisis de información textual y visual contenida en hemerotecas digitales.

Dicho procesamiento permitirá hacer búsquedas semánticas, yendo más allá de la simple búsqueda por palabras clave, y permitiendo visualizaciones avanzadas de los contenidos de las hemerotecas digitales.