Non è certo una novità, la tecnologia sta raggiungendo vette mai così alte, scoprendo e analizzando territori ancora inesplorati. È quanto accade anche al mondo della traduzione professionale, nella quale la machine translation è riuscita ad acquisire sempre più rilevanza. Un team di ricercatori del MIT e dell’Università della California ha recentemente pubblicato uno studio capace di rivoluzionare il mondo della traduzione automatica: il modello di apprendimento VALHALLA.
“L’elaborazione di migliori sistemi di MT prendendo in considerazione input ausiliari come le immagini ha attirato molta attenzione negli ultimi anni. Attualmente, i metodi esistenti mostrano prestazioni promettenti rispetto ai tradizionali sistemi di traduzione esclusivamente testuale; tuttavia, in genere richiedono testo e immagine accoppiati come input, il che ne limita l’applicabilità nel mondo reale. In questo articolo, introduciamo un modello di visual hallucination applicato alla traduzione automatica, chiamato VALHALLA, che richiede la sola presenza di frasi sorgente e utilizza rappresentazioni visive per la traduzione automatica multimodale”.
Come si legge nell’introduzione allo studio (visionabile qui) lo scopo della ricerca è quello di migliorare gli attuali sistemi di traduzione automatica. Ad oggi, infatti, i principali modelli di MT analizzano gli input esclusivamente in forma grafica, elaborando il segmento e proponendo una sua traduzione nella lingua target.
Recentemente, però, diversi ricercatori hanno provato ad ampliarne i confini, concentrando i propri sforzi nella traduzione automatica multimodale (Multi-modal Machine Translation, MMT). Un nuovo paradigma che analizza ed elabora un input multiplo, formato dal testo e dalla sua rappresentazione grafica in immagini.
La traduzione automatica di VALHALLA può funzionare?
Riprendendo quanto detto all’interno dello studio: “Ampi esperimenti su tre traduzioni dimostrano che i set di dati con un insieme diversificato di coppie linguistiche dimostra l’efficacia del nostro approccio”.
Il metodo sfrutta le cosiddette visual hallucination per trasformare il testo in un’immagine che rappresenti graficamente la frase. Successivamente, lo stesso testo accompagnato dalla sua rappresentazione viene utilizzato per creare il testo target.
L’idea alla base è semplice, come riportato proprio dal MIT, il modello si baserebbe sullo stesso processo di apprendimento utilizzato dai bambini. Quando impariamo la nostra prima lingua, solitamente non ci serviamo del testo grezzo. I testi per bambini, infatti, sono sempre ricchi di immagini volte a facilitare la comprensione di quanto letto. Allo stesso modo il modello di traduzione automatica multimediale VALHALLA addestra il sistema di MMT ad associare parole e rappresentazioni grafiche.
Il modello, riprendendo un esempio utilizzato nel progetto, nel tradurre la frase “A snowboarder wearing a red coat is going down a snowcovered slope” genera anzitutto un’immagine che raffigura la scena descritta dalla frase. Il modello si serve poi di questa immagine per migliorare l’accuratezza della traduzione automatica, analizzando anche le possibili ambiguità semantiche.
Questo potrebbe rappresentare il primo passo verso la tanto ricercata, e al momento non ancora raggiunta, qualità umana. Nonostante per molti, tra cui il fondatore di Translated Marco Trombetti, sia un obiettivo irraggiungibile.
Foto di Tara Winstead da Pexels