Tommaso Caselli
Rijksuniversiteit Groningen
Non mi stupirei se quest’anno la sigla di apertura del Festival di Sanremo fosse questa (o qualcosa di simile). Già abbiamo visto l’uso di ChatGPT per creare contenuti per una trasmissione televisiva, perché non farlo per l’appuntamento più nazionalpopolare dell’anno? (spoiler: perché verrebbe presentato come un esempio sensazionalistico del leitmotiv ‘le macchine prenderanno il sopravvento’).
ChatGPT è un programma capace di generare testo in maniera automatica partendo da istruzioni minime e interagendo con l’utente. In gergo tecnico ChatGPT è un chatbot di ultima generazione. Questo programma, sviluppato da OpenAI, nel giro di poche settimane, è diventato il centro di chiacchiere, preoccupazioni, scambi di screenshot per mostrare i risultati delle domande, e reazioni stupite sia sulla sua ingenuità che sulle sue capacità ‘umane’.
Siamo, quindi, davvero davanti a un sistema di intelligenza artificiale generale (Artificial General Intelligence)? Abbiamo raggiunto la singolarità? Le ‘macchine’ pensano come noi? In questo primo episodio su ChatGPT, voglio riportare la discussione su un piano meno sensazionalistico e più scientifico (o, se vogliamo, fattuale).
Che cos’è?
ChatGPT fa parte di una nuova generazione di modelli di linguaggi, detti modelli di linguaggio generativi. Questi modelli si basano su reti neurali profonde (i Transformers). La profondità qui si riferisce al numero di nodi, o parametri, che compongono la rete neurale e alla loro stratificazione su diversi livelli. Ogni nodo è una ‘funzione’ che riceve dati in ingresso, compie delle trasformazioni (matematiche) dei dati per poi passarli a dei nodi recettori. La profondità della rete neurale e il numero di parametri usati dal modello per poter compiere delle predizioni sono i due ingredienti chiave alla base del loro successo. GPT3.5, su cui ChatGPT è basato, ha ben 96 livelli di profondità e 175 miliardi di parametri – e già si sta parlando di un GPT4 con ancora più parametri e livelli!
Ma parametri e livelli da soli non bastano. Un altro ingrediente essenziale è il meccanismo di attenzione (attention). Questo meccanismo permette alla rete di “prestare attenzione” in maniera selettiva rispetto a una sequenza di parole. Variando il focus di attenzione, si varia la rappresentazione delle parole in una frase, e di conseguenza si riesce a modellare il loro significato nello specifico contesto di occorrenza. Infine, l’ultimo ingrediente base sono i dati. I modelli di linguaggio generativi si “nutrono” di quantità impressionanti di dati. GPT3 è stato ottenuto usando 300 miliardi di parole, combinando diverse fonti di testo – incluse pagine Web.
Uno degli aspetti più affascinanti della creazione dei modelli di linguaggio generativi è il loro addestramento. Prima ancora di imparare a svolgere un compito ben preciso, per esempio discriminare messaggi d’odio, il modello è addestrato senza nessun intervento umano esplicito (in maniera non supervisionata) a svolgere un task di predizione molto semplice. Nel caso di modelli di linguaggio generativo questo task base consiste nel predire una parola che viene ‘mascherata’ (per una spiegazione più esaustiva di questo passaggio preliminare, invito il lettore a vedere il contributo di Alessandro Lenci).
L’ingrediente segreto, o ‘rivoluzionario’, con ChatGPT è l’introduzione di una componente umana nella fase di addestramento per rendere la produzione di testo più in linea con le aspettative e le intenzioni di un ideale parlante umano. Questo raffinamento dell’addestramento ricade sotto il paradigma di apprendimento per rinforzo con feedback umano. Dall’essere completamente abbandonato a sé stesso, dall’imparare a predire la parola ‘mascherata’ più probabile, il modello viene addestrato tramite input creati da esseri umani a generare un messaggio testuale che è in linea con le aspettative umane in specifici contesti di occorrenza. Per fare un esempio, quando chiediamo Quanto fa 2+2?, la risposta che ci aspettiamo è un numero, non una spiegazione su come si fa un’addizione. L’addestramento per rinforzo con feedback umano punta proprio a raffinare la presentazione delle risposte e l’interazione conversazionale con l’utente perché la sua percezione risulti più naturale.
Possiamo, quindi, rispondere così alla domanda iniziale: ChatGPT è un chatbot avanzato basato su un modello di linguaggio generativo raffinato con apprendimento per rinforzo con feedback umano. Per evitare possibili malintesi, voglio chiarire che:
No! ChatGPT non è un database: per quanto parte dei dati usati per generarlo possano essere memorizzati dal modello, ChatGPT è in grado di generare istanze di testo nuove.
No! ChatGPT non è un motore di ricerca come Google. In quanto modello di linguaggio, ChatGPT non ha accesso al Web per recuperare informazioni. La sua ‘conoscenza del mondo’ è limitata ai dati usati per addestrarlo.
No! ChatGPT non simula l’apprendimento di linguaggio da parte di un essere umano. Per quanto si possano aprire spunti di riflessione interessanti (legati all’argomento della povertà dello stimolo), ChatGPT non è esposto a interazioni sociali o comunicative come un essere umano.
No! ChatGPT non è rivoluzionario da un punto di vista tecnologico. ChatGPT è stato sviluppato usando metodi che sono noti e sono stati già usati. Sicuramente, l’averne aperto l’accesso al pubblico senza limitazioni e senza una particolare promozione delle sue capacità sono due elementi che hanno contribuito al suo successo e allo stupore generalizzato su quanto sia ‘bravo’.
Cosa sa fare?
In quanto modello di linguaggio generativo, la generazione automatica di testo è sicuramente l’aspetto primario in cui il modello eccelle. La parte più affascinante – e che è la forza di queste tecnologie – è la qualità dei testi generati rispetto a parametri quali coesione sintattica e coerenza semantica. Il lato oscuro di questa capacità è che questi testi non sono distinguibili rispetto a quelli prodotti dagli esseri umani.
Un recente articolo – non ancora sottoposto a revisione scientifica – propone di distinguere tra aspetti legati alle ‘competenze linguistiche formali’ e alle ‘competenze linguistiche funzionali’ come parametri per valutare le capacità linguistiche di questi modelli.
Se ci focalizziamo sulle competenze linguistiche formali, ovvero la conoscenza delle regole e delle regolarità formali che soggiacciono a una lingua naturale, quello che emerge da un’analisi della letteratura è che questi modelli abbiano assimilato questo livello di competenza. Per esempio, questi modelli eccellono nel riconoscere correttamente l’accordo di numero tra soggetto e verbo anche quando i due componenti si trovano a lunga distanza (Le chiavi del vecchio comò di legno in sala sono sul tavolo vs *Le chiavi del vecchio comò di legno in sala è sul tavolo). Ci sono anche indizi sulle capacità di generalizzazione rispetto a semplici categorie grammaticali.
Sempre restando a questo livello di analisi, modelli come ChatGPT eccellono in compiti di trasferimento di stile. Si possono ottenere testi coerenti scritti ‘nello stile di’. Certamente, questa capacità apre a dibattiti sulle capacità creative e sull’originalità del prodotto (Nick Cave non ha esitato un momento a dichiarare che la canzone di ChatGPT “sucks”).
Cosa non sa (e non potrà) fare?
Il gioco del momento è ‘Facciamo uno scherzo a ChatGPT!’, ovvero troviamo un modo qualsiasi per cogliere il modello in fallo. Un gioco che non sempre riesce – molti sono i casi in cui il modello ‘la fa franca’.
Se ci focalizziamo sulle ‘competenze linguistiche funzionali’, ovvero su quell’insieme di capacità cognitive necessarie per usare correttamente e comprendere una lingua naturale, possiamo facilmente trovare delle crepe rispetto alla visione dei modelli di linguaggio naturale come ‘macchine che pensano’. L’aspetto essenziale, e da tenere presente, è che gli esseri umani accedono e combinano insieme un blocco di competenze cognitive non linguistiche per poi fare un uso consapevole e funzionale della lingua. Oltre alla sintassi, c’è molto altro che deve essere acquisito per poter essere un pieno parlante competente di una lingua. Partendo da questa prospettiva, voglio elencare tre limitazioni fondamentali:
- Nessuna intenzionalità e consapevolezza: ogni volta che interagiamo con un altro essere umano, assumiamo che il nostro interlocutore sia un agente pensante razionale – e che condivida con noi conoscenze del mondo e capacità di ragionamento. ChatGPT non presenta nessuna di queste caratteristiche – partendo proprio da come è stata addestrata. L’uso di apprendimento per rinforzo con feedback umano ha un impatto positivo nel rendere le interazioni più naturali, ma non sopperisce all’assenza di capacità cognitive razionali di base.
- Capacità di ragionamento limitate: per quanto risulti un modello avanzato, ChatGPT presenta grosse limitazioni. Molto dipende da come le istruzioni vengono fornite e – forse – dal loro ordine. Riporto due interazioni con ChatGPT fatte in momenti diversi della mattina del 2 febbraio 2023 e con inizi diversi:
La variazione della risposta alla stessa domanda mette in dubbio anche la stabilità e la consistenza del modello nel fornire le risposte, nonostante il tono solitamente assertivo delle sue risposte.
- Conoscenza del mondo: ChatGPT non è un database, e non è un motore di ricerca. La sua conoscenza del mondo – in senso lato – è imperfetta e soprattutto non affidabile:
Per quanta familiarità si possa (non) avere con la rappresentazione sintattica a dipendenze, ilrisultato, palesemente, non è corretto: difficilmente ChatGPT passerebbe uno scritto di LinguisticaGenerale del primo anno di qualsiasi corso di laurea con questa soluzione.
Per chiudere
I modelli di linguaggio generativi sono – a oggi – delle rappresentazioni eccellenti della dissociazione tra linguaggio e pensiero. E, non per caso, sono stati soprannominati ‘pappagalli stocastici’.
Proclamare che un modello come ChatGPT ‘cracked the code’, o ‘sa parlare’, serve a nutrire propaganda e sensazionalismo rispetto al tema dell’Intelligenza Artificiale (oltre che fare gratuitamente pubblicità a una compagnia privata come OpenAI). Riflettere razionalmente sulle capacità di questi modelli – e soprattutto sulle loro limitazioni – avendo ben preciso come sono stati creati e come funzionano è un approccio salutare, soprattutto per evitare allarmismi e lavorare per un’integrazione cosciente e coscienziosa di questi strumenti nella nostra vita quotidiana.
3 Commenti
Miti 06 Febbraio, 2023
Lettura molto utile e informativa, grazie. Chiarirei però che con “singolarità” si intende “singolarità tecnologica”, un concetto presumibilmente non familiare a tutti (nessun dizionario di italiano al momento include questa accezione di “singolarità”)
Mirella 06 Febbraio, 2023
Inquietante. Non illudiamoci, non temiamo: niente mai potrà sostituire il pensiero ed il linguaggio umano.
ChatGpt Nederlands 30 Settembre, 2023
Great article on the capabilities of ChatGPT! It’s fascinating to see how machines are able to communicate more like humans, thanks to advancements in language models like GPT. The potential applications in various fields, from customer service to content generation, are truly exciting. Thanks for sharing this insightful piece. For more information on similar language models, check out my website at https://gptnederlands.nl/. Jon Robertson
Lascia un commento