Alessandro Lenci
Università di Pisa
Lo confesso. Ogni volta che leggo un articolo che annuncia la prossima nascita del traduttore universale che porrà termine all’era di Babele mi viene un attacco di orticaria. Quando poi scopro che questo annuncio viene dallo stesso Mark Zuckerberg, inventore e padrone di Facebook e ora della sua evoluzione Meta, il prurito aumenta sensibilmente. Superato il fastidio iniziale, il video meeting Inside the Labs di cui parla l’articolo di Repubblica in realtà merita di essere visto. Intendiamoci. Nel complesso si tratta di un ‘mega spot’ per lanciare le ricerche di Intelligenza Artificiale (IA) che renderanno possibile il Metaverso, il mondo virtuale che rappresenta la nuova creatura di Zuckerberg e soprattutto il suo nuovo mercato, ora che i social come Facebook sembrano già destinati a un inesorabile declino. Per vedere il video bisogna sopportare le solite affermazioni, assai stucchevoli, di come Facebook, o meglio Meta, stia lavorando per il bene dell’umanità, bisogna riuscire a dimenticare per un momento tutto quello che sappiamo su quanto queste imprese guadagnino con i nostri dati, senza al contempo versare un euro di tassa là dove dovrebbero, e dunque alla fine aumentando proprio quelle diseguaglianze che guarda caso vogliono sradicare. Ma se lasciamo alle spalle la cyberpolitica, il video ci fornisce una panoramica interessante di dove sta andando l’IA. Da linguista computazionale, devo dire che ad attrarre la mia attenzione non sono tanto le applicazioni che la nuova IA sembra promettere (come appunto il fantomatico traduttore universale) quanto il paradigma generale, perché le novità per le scienze e le tecnologie del linguaggio naturale non sono poche, non solo rispetto al passato, ma anche riguardo al presente stesso.
I keynote dei Meta Labs ruotano intorno a tre parole chiave: multimodalità, self-supervised learning e parsimonia. Vediamole una ad una. L’IA attuale per l’elaborazione del linguaggio naturale di fatto si basa su reti neurali profonde (in particolare i cosiddetti Transformer) che imparano solo da grandi, anzi grandissime quantità di testi scritti. Da esso estraggono tutte le conoscenze (lessicali, grammaticali, e anche di senso comune) che dovrebbero metterle in grado di svolgere qualsiasi task linguistico come tradurre, rispondere a domande, conversare, ecc. Questi sistemi sono dunque principalmente monomodali o meglio amodali. Il fatto che i testi siano l’unica fonte della loro conoscenza è chiaramente un limite enorme, soprattutto perché non tutto quello che richiede la nostra intelligenza, linguistica e non solo, può essere appreso dall’analisi statistica dei testi. Impariamo cosa succede se diamo un calcio a una palla non leggendo una pagina di Wikipedia, ma calciandola. Il futuro è dunque rivolto verso sistemi multimodali in grado di apprendere da input linguistici scritti e parlati, da immagini e video e dall’interazione stessa con un ambiente virtuale, proprio il Metaverso che Zuckerberg e i suoi stanno creando. Il CAIRaoke di cui parla anche l’articolo di Repubblica è esattamente il prototipo di un’applicazione che permette di creare entità virtuali con il linguaggio naturale e che potrà imparare interagendo con questa realtà.
Il secondo aspetto cruciale è il metodo che i modelli di IA usano per acquisire le conoscenze e imparare a svolgere un particolare compito. L’approccio oggi più comune è quello che si chiama ‘supervised learning’, ovvero apprendimento supervisionato. Questo metodo presuppone l’esistenza di dati etichettati con le categorie che il sistema deve acquisire. Se vogliamo che un sistema impari a distinguere i nomi dai verbi (ovvero a fare quello che si chiama ‘POS tagging’), deve essere addestrato su corpora in cui alle parole sono associate le parti del discorso (es. Il:ART cane:N dorme:V). Dal momento che creare questi dati è lungo e costoso, si sta invece affermando un nuovo paradigma di apprendimento chiamato ‘self-supervised’. In questo caso il sistema viene addestrato a svolgere un task molto semplice a partire da dati non annotati, tipicamente un task di predizione. Ad esempio, data una frase con una parola mascherata – Il [masked] dorme – il sistema deve imparare a predire la parola mancante (NB: riconoscerete tutti in questo il classico Cloze test, molto usato negli studi linguistici, in particolare quelli acquisizionali). Importante! Lo scopo dell’apprendimento non è il task in sé, ovvero la predizione, ma le rappresentazioni che l’algoritmo si deve creare per imparare a svolgerlo. Nell’esempio sopra, queste rappresentazioni conterranno informazioni di tipo morfosintattico e semantico, ad esempio che i nomi sono preceduti da articoli, che un verbo come dorme ricorre con nomi animati, ecc. Grazie al ‘self-supervised learning’, i modelli neurali possono essere addestrati su testi non annotati (molto più facilmente disponibili in ogni lingua) dai quali estraggono – implicitamente – molte informazioni sulla struttura del linguaggio, senza una diretta supervisione umana. Questi metodi sono ormai diffusi in linguistica computazionale, ma vengono anche applicati a dati multimodali.
Veniamo infine alla parsimonia. Questo è un altro aspetto cruciale, perché uno dei limiti dei modelli attuali di IA è che richiedono grandi quantità di dati per essere addestrati, nell’ordine delle migliaia di miliardi di parole, ad esempio. Una sfida per il futuro è poter avere algoritmi più parsimoniosi, ovvero in grado di imparare da meno dati. Di qui il progetto del celebrato traduttore automatico universale, la cui vera novità sta nella sua capacità di imparare a tradurre anche lingue con poche risorse testuali a disposizione. Maggiore parsimonia dei dati significa anche poter addestrare i sistemi più rapidamente e con risorse computazionali ed energetiche più contenute, dunque una maggiore sostenibilità dell’infrastruttura di IA.
Perché questa ‘nuova IA’ è interessante per lo studio del linguaggio? Perché si avvicina di più al modo in cui gli esseri umani apprendono e usano il linguaggio. La cognizione come la comunicazione è multimodale e l’apprendimento del linguaggio avviene in un contesto che è intrinsecamente interazionale. Inoltre, il linguaggio non viene appreso in maniera supervisionata, usando dati etichettati esplicitamente da altri. La stessa nozione di predizione su cui si basa il self-supervised learning è centrale nei meccanismi cognitivi di elaborazione online del linguaggio. Infine, i bambini imparano a parlare venendo esposti a una quantità di dati che è infinitamente inferiore a quella che i sistemi di IA attuali richiedono. Dunque, una ricerca sull’IA che punta sulla multimodalità, su modelli di apprendimento più vicini a quelli umani e in grado di imparare da quantità realistiche e contenute di dati è sicuramente qualcosa che noi linguisti possiamo e, aggiungerei, dobbiamo guardare con interesse.
Una precisazione importante. I sistemi di IA che rappresentano l’infrastruttura portante della ‘visione’ di Meta hanno un limite significativo. Acquisiscono molte conoscenze linguistiche, ma in maniera implicita, cosicché è spesso difficile capire quali conoscenze abbiano effettivamente imparato e quanto tali conoscenze siano il frutto di una elevata capacità di memorizzare le grandi quantità di dati usati nell’addestramento o siano invece in grado di realizzare generalizzazioni linguistiche simili a quelle umane. È questa mancanza di interpretabilità il prezzo che stiamo pagando con la nuova IA, e che la ricerca cerca di superare affinando tecniche per esplorare e capire le conoscenze linguistiche che i nuovi sistemi hanno acquisito. Spesso il semplice successo ‘esteriore’ in attività come rispondere alle domande o gestire una conversazione non è più sufficiente per garantire che questi modelli abbiano effettivamente acquisito conoscenze astratte e generali. In altri termini il famoso Test di Turing dell’Imitation Game non basta più. In questo, noi linguisti abbiamo un ruolo importante proprio per sviluppare nuovi test e metodi per esplorare la vera natura della conoscenza linguistica dell’IA, per capire se stiamo creando semplici “pappagalli intelligenti” oppure “macchine come me”, per citare il titolo del romanzo di McEwan.
Un’ultima nota. Lo scenario illustrato da Zuckerberg e le linee strategiche che ha indicato sono sicuramente sulla via giusta, ma non sono una sua creazione. Investe massicciamente in idee e metodi che la comunità internazionale di ricerca sta già praticando. Sicuramente, l’investimento di Meta, come di Google e Amazon, che giocano la stessa partita per competere su un mercato potenzialmente enorme, sarà cruciale per far crescere questa nuova IA. Speriamo solo che essa sia non solo più intelligente, ma anche più libera e veramente di tutti. Starà a loro dimostrarlo, al di là dei proclami.
1 Commento
Carlo Serafini 03 Marzo, 2022
Interessanti riflessioni, complimenti Alessandro.
Lascia un commento