Substream II

2023 - 2024

Itzulpen eta bikoizketa automatikorako teknologiak bideokonferentzia- edo streaming-sistemetan

Substream II proiektua ikerketa-lerro baten parte da, eta haren azken helburua oinarrizko teknologia ikertzea eta garatzea da, itzulpen- eta bikoizketa-sistema automatikoak ezartzeko bideo-dei elebidunen inguruneetan, hainbat hizkuntzatako azpitituluen eta irteerako audio itzuliaren bidez.

Teknologia horiek guztiek (transkripzioa, azpitituluak eta bikoizketa automatikoa, guztiak zuzenean) dakarten oinarrizko ikerketaren konplexutasuna eta maila kontuan hartuta, proiektua bi urtetan planteatu zen. Itzulpena eta bikoizketa aplikatu aurretik egin beharreko lehen urratsa hiztunen elkarrizketak edo esku-hartzeak transkribatzea edo azpititulatzea da, bideo-deiak bezalako inguruneetan zuzenean eta denbora errealean egin behar baitira. Hori landu da 2023ko irailean amaitzen den Substream proiektuan.

Substream II proiektua ondorengo bi faseetan zentratuko da, hots, streaming inguruneetako elkarrizketen itzulpenean eta bikoizketan.

Itzulpenari dagokionez, aurreko Substream proiektuan egindako garapenen ondoren solaskideek esandakoaren transkripzioa oso kalitate handikoa izan arren eta diskurtso informalaren eta ingurune zaratatsuaren arazoak konpondu badira ere, hiztunek akatsak egin ohi dituzte aipatutakoa bezalako inguruneetan, non esan behar duena, hitzaldi bat adibidez ez bezala, ez dagoen aldez aurretik prestatuta. Horrela, batzuetan hitz bat esaten hasten da, erdian eteten du eta beste batera pasatzen da, hitzak errepikatzen ditu, zalantza-betaurrekoak gehitzen ditu edo denbora irabazteko, esaldi oso luzeak egiten ditu, subjektuaren eta aditzaren artean ez dago korrespondentzia gramatikorik, oso bereizita daudelako eta ahaztu egin delako… Eta sarrerako esaldi baten aurrean, akatsekin eta okerrekin, itzulpen automatikoko sistemek ez dute hain ondo funtzionatzen, eta hori izango da konpondu beharreko arazoetako bat.

Hizketaren sintesiari dagokionez, bideo-deien inguruneak ez du garapen edo tratamendu espezifikoa eskatzen duen ezaugarri bereizgarririk. Hala ere, bideo-dei batean bikoizketa-sistema bat erabiltzean naturaltasun handiagoa lortze aldera, eta, ezinbestean, tolestutako audioa atzerapenarekin entzungo denez (esaldiak amaitu arte itxaron behar da itzuli eta sintetizatu ahal izateko), interesgarria da ahots sintetizatua jatorrizko hiztunaren antzekoa izatea, eta horrela ulertu ahal izatea nor den esan zuena. Beraz, ahots sintetikoaren imitazioaren esparrua ere landu nahi da lagin txiki batekin eta hiztuna sintesi-sistemaren entrenamenduko ahotsen sortan egon gabe.

Kolaborazioa: Orai NLP Teknologiak

Finantziazioa: Gipuzkoako Foru Aldundia – RVCT