Anna-Maria De Cesare & Giulia Mantovani
Technische Universität Dresden
In un primo articolo, intitolato “ChatGPT, bias linguistici e interferenze con l’inglese”, abbiamo parlato del problema del bias legato ai dati di addestramento, in particolare alla sovrarappresentazione della lingua inglese, e abbiamo mostrato l’effetto che tale bias ha sull’output prodotto da modelli linguistici come quelli della famiglia GPT (il testo è leggibile qui).
Nel presente articolo ci concentriamo invece su un bias legato al funzionamento dei modelli linguistici come GPT, Mistral, Minerva, Teuken ecc. e mettiamo in luce alcuni rischi che potrebbero scaturire da uno sviluppo sfrenato e poco controllato di questa tecnologia, soprattutto nel momento in cui i nuovi modelli linguistici saranno sviluppati con una quantità sempre più ampia di dati sintetici, prodotti da altri modelli. I rischi sono notevoli: si va verso una perdita della diversità linguistica (per approfondimenti, rimandiamo al contributo di Eva Vanmassenhove intitolato: Losing our Tail – Again). I problemi in questione saranno illustrati confrontando la frequenza d’uso delle parti del discorso nell’ambito di favole scritte da modelli linguistici e da esseri umani.
I modelli linguistici come sistemi statistico-probabilistici
I modelli linguistici, già definiti a grandi linee nel primo articolo, sono algoritmi statistico-probabilistici in grado di prevedere quale elemento è più probabile trovare dopo una data sequenza e all’interno di un dato contesto. L’elemento in questione coincide più precisamente con quello che si chiama token. Un token può coincidere con una parola intera (per es. vedo, il, cane, bianco, che, abbaia ecc.), ma in generale coincide con una parte di parola, che può essere a sua volta un morfema (ovvero la più piccola unità di significato di una lingua, come in can-e), parte di un morfema (ca-n-e), fino ad arrivare al singolo grafema (c-a-n-e). La segmentazione di un testo in token dipende dal sistema di tokenizzazione utilizzato. Partendo dalla parola cane, i token potrebbero essere due, tre, quattro o, nel caso di parole più lunghe, più di quattro (ca-gn-o-l-i-n-o). In sostanza, i testi generati dai modelli linguistici non sono dunque altro che sequenze di token con elevata probabilità di occorrere in successione. Questa probabilità è determinata in base a un iperparametro chiamato temperatura (che definiremo sotto).
È importante chiarire anche cosa non sono i modelli linguistici (o l’IA generativa di testo). Anche se la metafora ha avuto grande fortuna, i modelli in questione non sono pappagalli (stocastici). In effetti, non riproducono meccanicamente parole o sequenze di parole tratte dai dati di addestramento; in altri termini, l’output prodotto da un modello linguistico non è il risultato di un processo di estrazione e riproduzione di sequenze più o meno ampie già esistenti in altri testi, ma un contenuto creato ex novo a partire dai mattoncini che sono i token. Inoltre, le sequenze generate dai modelli sono ben più complesse delle singole parole isolate o al massimo delle sequenze di parole che sono in grado di produrre i pappagalli: si tratta di testi composti da più frasi, a loro volta organizzate in unità testuali più complesse che sono i paragrafi.
Conseguenze sulla diversità linguistica
Il funzionamento dei modelli linguistici diventa molto trasparente quando si usa lo stesso prompt (o richiesta) con temperature diverse. La temperatura è un parametro prestabilito nel sistema (chi usa un modello linguistico, per esempio sulla piattaforma ChatGPT, può però indicare nel prompt la temperatura con la quale il testo deve essere generato), che controlla il grado di casualità delle risposte generate, modulando la distribuzione di probabilità dei token (parole o parti di parole) durante la generazione del testo. La temperatura si misura con un valore numerico, che può variare da 0 a 2, ma il cui valore di default si aggira attorno a 0,7. Questa temperatura è ritenuta ideale perché permette di produrre un output che presenta un equilibrio tra prevedibilità e casualità dei token generati. La scelta di un token avviene comunque sempre all’interno di un paradigma di possibilità individuato in base a calcoli statistici.
Di seguito riportiamo la prima frase di quattro favole per bambini generate con il modello linguistico Minerva (per dettagli sul modello, cfr. Minerva); queste favole sono state generate con lo stesso prompt (“Scrivi una favola per bambini (3-5 anni)”), ma con due temperature diverse: le prime due con la temperatura standard di 0,7; le altre due con la temperatura 0, che seleziona sempre il token più prevedibile, vale a dire con la probabilità più elevata di occorrere in un determinato contesto. Come è facile osservare, i primi due output presentano solo alcune parti in comune (c’era una volta, in un …, di nome…), mentre gli ultimi due output sono assolutamente identici:
- C’era una volta, in un meraviglioso bosco verdeggiante, una piccola tartaruga di nome Tino.
- C’era una volta, in un piccolo villaggio, un gattino di nome Max che era molto curioso e amante dell’avventura.
- C’era una volta, in un piccolo villaggio ai piedi di una grande montagna, una famiglia di conigli molto speciali.
- C’era una volta, in un piccolo villaggio ai piedi di una grande montagna, una famiglia di conigli molto speciali.
Oltre al bias linguistico relativo al bilanciamento delle lingue nei dati di addestramento, il funzionamento dell’IA generativa di testo è associato a un altro importante bias – di tipo algoritmico – che porta da una parte a favorire (o “premiare”) i token e le sequenze di token più frequenti nei dati di addestramento dei modelli; dall’altra, porta a sfavorire (o “punire”) i token e le sequenze di token meno frequenti. Questo significa che i testi prodotti con l’IA generativa tendono a includere solo le forme più frequenti all’interno di un paradigma di possibilità reperite nei dati di addestramento, composti (come abbiamo visto nel primo articolo) in gran parte da testi scritti in inglese. I token meno frequenti – che rappresentano elementi ‘speciali’, potremmo anche dire ‘preziosi’ perché più rari – hanno invece meno chance di essere generati: o lo sono raramente o non lo sono affatto…
Da tutto ciò consegue non solo un’evidente perdita di ricchezza a livello di forme e strutture linguistiche, ma anche un chiaro appiattimento dei testi generati sulle forme e strutture più frequenti, note, stilisticamente neutre ecc. A lungo termine, soprattutto se le prossime generazioni di modelli linguistici saranno addestrate su corpora di testi a loro volta in gran parte composti da dati sintetici, l’uso dell’IA generativa di testo potrebbe anche portare a un avvicinamento delle lingue (italiano, inglese, francese, spagnolo, tedesco ecc.), in particolare a spinte di standardizzazione a livello internazionale e a fenomeni di convergenza a livello sociolinguistico, con una conseguente perdita delle varietà di lingue all’interno di un singolo diasistema. Per l’italiano ciò potrebbe per esempio significare la scomparsa – o, meno catastroficamente, lo smussamento – delle differenze tra italiano standard e neostandard.
Il caso delle parti del discorso
La riduzione della varietà linguistica, in particolare lessicale, è verificabile attraverso un’analisi delle parti del discorso (chiamate anche PoS) in testi generati e scritti da esseri umani. Di seguito paragoniamo dapprima le PoS lessicalmente ‘piene’ – ovvero nomi, aggettivi, verbi e avverbi – per poi soffermarci sulle PoS funzionali (pronomi, preposizioni, determinanti, congiunzioni e interiezioni). Mentre le prime formano una classe aperta di parole che può essere continuamente incrementata (pensiamo al nome computer, entrato a far parte del nostro lessico solamente dopo l’invenzione della relativa tecnologia), le seconde costituiscono una classe chiusa di parole più stabili nel tempo (si pensi alle preposizioni di base di, a, da, in, con, su, per, tra, fra).
Dal confronto tra un campione di favole generate dai modelli linguistici GPT-3.5 Turbo, GPT-4o-mini, Minerva-7B e Teuken-7B (che chiameremo corpus LLM – dall’inglese large language models) e altre scritte da esseri umani reperite online (corpus HUM), emerge infatti una netta differenza nella varietà interna alle singole PoS.
![]()
Grafico 1: Confronto delle PoS piene tra favole generate (LLM) e favole naturali (HUM)
Il grafico 1 illustra rispettivamente il numero totale di parole (occorrenze) e di parole uniche (type) appartenenti a ciascuna PoS piena (per esempio, i verbi mangiare, mangio, sentire e sentirono corrispondono a 4 occorrenze, ma a 2 soli type). Salta all’occhio, nei dati relativi al corpus LLM, il basso numero di type per tutte le PoS, che, se rapportato al numero di occorrenze, rivela come la varietà lessicale delle favole generate sia inferiore rispetto a quella delle favole HUM. La divergenza più rilevante si trova nella categoria degli aggettivi, in cui il rapporto type/occorrenze, usato appunto per calcolare la ricchezza lessicale di un testo (più è alta la percentuale, maggiore è la varietà di parole), equivale al 6,95% nelle favole generate e al 21,70% nelle favole umane.
Anche confrontando le PoS funzionali, si osserva una discrepanza fra i due corpora in termini di type:
![]()
Grafico 2: Confronto delle PoS funzionali tra favole generate (LLM) e favole naturali (HUM)
La categoria più divergente è quella delle interiezioni, che nelle favole umane superano di oltre 3 volte quelle delle favole generate: le interiezioni generate dai LLM sono no, sì, ciao, oh, grazie, ah, aspetta, mentre nel corpus HUM si trovano anche beh, chissà, ahimè, oddio, ohibò, macché.
I due grafici mostrano che i testi generati tendono a essere più ripetitivi, riducendo il ventaglio lessicale della comunicazione umana. Ciò potrebbe avere un impatto sulla lingua italiana, soprattutto considerando il sempre più diffuso utilizzo dei modelli linguistici in tutti gli ambiti della scrittura.
0 Commenti
Lascia un commento