El grupo de investigación VRAIN-MLLP de la UPV gana el Reto Iberspeech-RTVE de subtitulado automático para televisión
El MLLP ha revalidado la victoria de 2018 y consolida su tecnología como la mejor de España, y entre las mejores del mundo, para el subtitulado automático en directo
El grupo de investigación MLLP (Machine Learning and Language Processing), perteneciente al Instituto VRAIN (Instituto Valenciano de Investigación en Inteligencia Artificial) de la Universitat Politècnica de València, ha obtenido el primer puesto en el Reto IberSpeech-RTVE 2020 de subtitulado automático para televisión, repitiendo su victoria de 2018. Esto consolida la tecnología UPV-VRAIN-MLLP como la mejor de España, y entre las mejores del mundo, para el subtitulado automático en directo de contenidos televisivos.
En esta edición, el reto ha consistido en un conjunto de pruebas ciegas compuesto por 56 horas de discurso transcrito de 16 programas de televisión en español de diferentes características. El sistema primario de MLLP ha conseguido el primer puesto al reducir la tasa de error de palabra (WER) al 16%. El MLLP ha sido el único grupo que ha participado con su propio kit de reconocimiento del habla en streaming de última generación no basado en Kaldi, el TLK transLectures-UPV.
Javier Jorge Cano, investigador del MLLP explica que “esta competición ha supuesto una gran oportunidad para evaluar nuestros sistemas bajo condiciones de uso reales, lejos de los típicos conjuntos de datos académicos.” Y añade que “a pesar de que ya obtuvimos los mejores resultados en 2018, esta edición planteaba un reto mayor, con mucha más diversidad y complejidad que el anterior; por lo tanto, estamos muy contentos con los resultados obtenidos con nuestro sistema de reconocimiento de voz”.
“Puede parecer ciencia ficción, pero en realidad, no estamos tanto lejos de conseguirlo”
“En nuestro grupo llevamos cerca de 10 años investigando y desarrollando esta tecnología propia de reconocimiento del habla, siempre con una máxima: transferirla al mundo real para satisfacer necesidades reales y aportar valor a nuestra sociedad”, explica Joan Albert Silvestre Cerdà, profesor del DSIC en el campus d'Alcoi e investigador del MLLP del VRAIN.
Desde el año 2014 utilizan el subtitulado automático en valenciano, castellano e inglés para el repositorio de videos docentes UPVmedia, que incluye los videos poliMedia y poliTube, con una calidad de transcripción excelente, sin requerir ninguna intervención humana. En 2019 pusieron en marcha, juntamente con el ASIC, el servicio poliSubs, para la subtitulación automática en tiempo real de ponencias, congresos y conferencias en la UPV.
“Tenemos intención de dar un impulso a este servicio, y extenderlo hacia la subtitulación multilingüe y en directo de las clases impartidas por nuestro profesorado en las salas de videoapuntes, un caso de estudio que estamos trabajando muy intensamente en el proyecto de investigación nacional Multisub del Ministerio de Ciencia”, añade Joan Albert.
Por otro lado, conviene destacar que esta tecnología continuará aplicándose y desarrollándose en el marco de dos proyectos de investigación europeos en los que participan: EXPERT (Erasmus+) y TAILOR (H2020).
Su objetivo final es orquestar las tres tecnologías (reconocimiento del habla, traducción automática y síntesis de voz) para conseguir el doblaje automático integral de recursos audiovisuales con clonación de voz. Esto permitiría, por ejemplo, doblar al polaco la voz de un profesor valenciano hablante a un video poliMèdia, no con una voz polaca genérica, sino con su propia voz, todo de manera automática. “Puede parecer ciencia ficción, pero en realidad, no estamos tanto lejos de conseguirlo”, apunta Joan Albert Silvestre.
Transferencia a instituciones y empresas
La tecnología desarrollada por el MLLP ha sido además transferida a diferentes instituciones públicas y privadas internacionales, entre las que destacan el Centro de Traducción de la Comisión Europea, las Universidades de Potsdam (Alemania), la de Lisboa, la Abierta de Holanda, y la Carlos III de Madrid, la multinacional americana AppTek Inc. y la empresa valenciana Tyris Software SL.
Recientemente, han iniciado un proyecto conjunto con la radiotelevisión valenciana, À Punt, para aplicar e integrar esta tecnología en sus emisiones televisivas, tanto en directo como en diferido.