Substream II

2023 - 2024

Tecnologías para traducción y doblaje automático en sistemas de videoconferencia o streaming

El proyecto Substream II forma parte de una línea de investigación que tiene como objetivo último la investigación y desarrollo de tecnología base para implementar sistemas de traducción y doblaje automático en entornos de videollamada bilingües mediante subtítulos en diferentes idiomas y audio de salida traducido.

Dada la complejidad y el nivel de investigación básica que comportan todas estas tecnologías (transcripción, subtitulación y doblaje automático, todas en directo), se planteó el proyecto en dos anualidades. El primer paso necesario antes de poder aplicar la traducción y el doblaje es la transcripción o subtitulación de las conversaciones o intervenciones de los hablantes, que en entornos como el mencionado de las videollamadas hay que hacer en directo y en tiempo real. Esto es lo que se ha trabajado en el proyecto Substream que finaliza en septiembre de 2023.

El proyecto Substream II se centrará en las dos fases posteriores, la traducción y el doblaje de las conversaciones en entornos de streaming.

Respecto a la traducción, nos encontramos con el problema de que, aunque tras los desarrollos realizados en el proyecto anterior Substream la transcripción de lo dicho por los interlocutores sea de una muy alta calidad y se hayan resuelto los problemas de discurso informal y entorno ruidoso, los hablantes suelen cometer errores en entornos como el mencionado donde lo que tiene que decir, a diferencia de una charla por ejemplo, no está preparado con antelación. Así, a veces empieza a decir una palabra, la interrumpe en la mitad y se pasa a otra, repite palabras, añade coletillas de duda o para ganar tiempo, realiza frases muy largas, no hay correspondencia gramática entre el sujeto y el verbo porque están muy separados y se ha olvidado… Y ante una frase de entrada con errores e incorrecta, los sistemas de traducción automática no funcionan tan bien y este será uno de los problemas a resolver.

Respecto a la síntesis del habla, el entorno de las videollamadas no presenta características diferenciales que exijan un desarrollo o tratamiento específico. Sin embargo, en aras a conseguir una mayor naturalidad en el uso de un sistema de doblaje en una videollamada, y dado que inevitablemente el audio doblado se va a escuchar con retraso (hay que esperar a finalizar las frases para poder traducirlas y sintetizarlas), es interesante que la voz sintetizada sea parecida a la del hablante original y así se pueda entender quién es el que la dijo. Por lo tanto, se quiere trabajar también el ámbito de la imitación de la voz sintética con una pequeña muestra y sin que el hablante esté en el lote de voces del entrenamiento del sistema de síntesis.

Colaboración: Orai NLP Teknologiak

Financiación: Diputación Foral de Gipuzkoa – RVCT