Tecnologías para subtitulación automática en sistemas de videoconferencia o streaming
El proyecto Substream forma parte de una línea de investigación que tiene como objetivo último la investigación y desarrollo de tecnología base para implementar sistemas de traducción y doblaje automático en entornos de videollamada bilingües mediante subtítulos en diferentes idiomas e incluso audio de salida traducido.
El primer paso necesario antes de poder aplicar la traducción y el doblaje es la transcripción o subtitulación de las conversaciones o intervenciones de los hablantes, que en entornos como el mencionado de las videollamadas hay que hacer en directo y en tiempo real. Dada la complejidad y el nivel de investigación básica que comportan todas estas tecnologías (transcripción, subtitulación y doblaje automático, todas en directo), el objetivo del proyecto Substream es abordar la problemática de la tarea de transcripción / subtitulación. Al ser la transcripción la primera de las acciones a realizar y la base de trabajo de las demás fases, cuanto mejor resultado obtenga la transcripción, mejor punto de partida tendrán el resto de los procesos y por lo tanto mayores posibilidades de obtener buenos resultados.
Para proporcionar una transcripción escrita del discurso de los participantes durante la conversación en tiempo real es necesario atacar los principales problemas del entorno: discurso informal, entorno ruidoso y múltiples participantes. El trabajo de transcripción en directo realizado en el proyecto es aplicable, además de para el contexto mencionado de las videollamadas, para otros entornos como la subtitulación de charlas, sesiones plenarias de ayuntamientos y similares, la redacción de textos por medio de dictado automático para personas con discapacidades motoras o problemas de movilidad permanente o temporal, etc.
Oportunidades de proyecto:
En los últimos años, las reuniones virtuales o por videollamada han aumentado exponencialmente su presencia en la vida cotidiana en varios aspectos de nuestra vida, especialmente en el entorno laboral, educativo y social. También cada vez más se dan charlas, seminarios o cursos de modo remoto o combinando la presencialidad con la emisión en streaming. Este modo combinado se está siendo adoptado en muchas reuniones de las administraciones públicas, como plenos de ayuntamientos, juntas generales y parlamentos para aumentar la transparencia y el acceso a la información de la ciudadanía.
En todas las mencionadas situaciones, se hace uso de software y tecnología para la comunicación o transmisión del audio y video. Dicha tecnología y software se puede ampliar y mejorar mediante el uso de tecnologías del habla y de la lengua para ofrecer funcionalidades adicionales de gran valor añadido.
La integración de la traducción y/o el doblaje en dichas herramientas es claramente interesante en el contexto bilingüe del País Vasco. Hay que tener en cuenta que las herramientas de videoconferencia y streaming comerciales que incluyen estas posibilidades no funcionan con el euskera. Por lo tanto, el desarrollo de este proyecto permitiría organizar una charla en euskera y que pudiesen seguirla los castellanohablantes monolingües, o hacerla en castellano y que los euskaldunes la recibieran en su idioma. Los plenos y otras reuniones de las administraciones públicas, que muchas veces son bilingües, se podrían seguir en el idioma que cada uno prefiera. Lo mismo en las reuniones del mundo empresarial, en este caso con el valor añadido de que si se implementa en más idiomas sirve también para poder llevar a cabo reuniones internacionales sin barreras idiomáticas.
La integración de estas tecnologías deberá hacerse necesariamente en herramientas de videoconferencia y streaming libres, con lo que también se abre una oportunidad de mercado para empresas locales que podrían ofrecer un servicio que las habituales soluciones del mercado no pueden.
Colaboración: Elhuyar Fundazioa

Financiación: Diputación Foral de Gipuzkoa – RVCT