Anna-Maria De Cesare
Technische Universität Dresden
Modelli linguistici e lingue generate
ChatGPT – da quasi tre anni a questa parte se ne parla ovunque: nei media, a scuola, sul posto di lavoro… Il chatbot, per la precisione, è stato rilasciato il 30 novembre 2022 in concomitanza con un’interfaccia digitale che ci permette di interrogarlo in modo molto semplice; anche per questo motivo lo usiamo sempre più spesso per correggere i propri testi, per tradurre, per chiedere informazioni, per chiacchierare del più e del meno e per molto altro ancora. In ambito educativo, ChatGPT è oramai impiegato nei modi più svariati sia da chi insegna sia da chi si trova in classe.
Meno noto è invece il fatto che alla base di ChatGPT c’è un sistema di intelligenza artificiale generativa speciale, chiamato modello linguistico di grandi dimensioni (dall’inglese large language model). Poco noto è anche il modo in cui funziona un modello linguistico. Questo, però, non sorprende perché non è indispensabile sapere come funziona una determinata tecnologia per utilizzarla correttamente. Nel caso in questione, poi, si tratta di una tecnologia estremamente complessa, che può spiegare in modo adeguato in primo luogo chi opera nel campo dell’ingegneria informatica, in particolare del machine learning (per approfondimenti, cfr. Ferrara 2025).
Detto questo, sapere anche solo per sommi capi quali modelli linguistici esistono (GPT-3.5, per esempio, è stato il primo modello interrogabile quando ChatGPT è stato rilasciato) e in base a quali algoritmi operano è fondamentale per un motivo in fondo molto semplice: solo così siamo in grado di capire e valutare la qualità del testo che questi modelli linguistici – basati su algoritmi statistico-probabilistici – generano in pochi secondi a partire da istruzioni minime, chiamate prompt. In ciò che segue non mi soffermerò sul modo in cui i modelli imparano a produrre testi in lingua naturale né sulla loro architettura interna. Questi aspetti, anch’essi fondamentali, sono già stati descritti su questa piattaforma qui e qui. Quello che vorrei mettere in luce riguarda invece la natura dei dati testuali usati per addestrare i modelli e l’effetto che questi dati hanno sul testo (anche chiamato output) generato.
Va premesso che i modelli linguistici sono oramai centinaia. Tra quelli più noti, anche per le loro capacità linguistiche avanzate, si possono citare i modelli multilingue delle famiglie GPT (sviluppati da OpenAI), Gemini (Google), DeepSeek (DeepSeek), Qwen (Alibaba), Claude (Anthropic), Grok (xAI) e Llama (Meta). Si tratta di modelli in grado di generare testi in decine di lingue diverse. Secondo alcune stime, i modelli GPT sono per esempio in grado di generare testi in circa 100 lingue. Molto importanti sono poi i modelli multilingue sviluppati per generare testi di qualità nelle principali lingue europee (tra cui inglese, tedesco, francese, italiano, spagnolo e portoghese), come i modelli della famiglia Mistral (sviluppato da MistralAI) e il modello Teuken-7B (OpenGPT-X). Una classifica dei modelli più diffusi (molti dei quali sono sistemi proprietari) si trova qui.
Esistono anche modelli sviluppati per generare testi di qualità in una lingua specifica (francese, svedese…). Per la lingua italiana vanno menzionati i modelli della famiglia Minerva AI (sviluppati alla Sapienza di Roma), che sono in realtà bilingui (italiano-inglese), e i modelli LLaMantino e Anita (sviluppati presso l’Università di Bari). La seguente schermata riproduce l’interfaccia che permette di interagire con il modello bilingue Minerva-7B:
![]()
Dati di addestramento e bias linguistici
I modelli multilingue sono in grado di generare testi in molte lingue diverse, ma non con la stessa qualità. La maggior parte dei modelli possiede infatti competenze linguistiche avanzate in primis della lingua inglese. Diversi studi hanno per esempio mostrato che si ottiene una risposta più accurata quando si formula una domanda in inglese (per l’italiano, cfr. Cicero 2023). Può anche capitare che a una domanda formulata in italiano si riceva una risposta prodotta integralmente in inglese. Mi è successo ripetutamente con i modelli GPT. Di recente mi è anche capitato con Minerva-7B, il modello bilingue italiano-inglese. Nella schermata seguente ho documentato il caso in questione. Come si vede, il prompt è espresso in modo inequivocabile in lingua italiana (“Scrivi una biografia su Lina Bo Bardi), ma il sistema ha ‘frainteso’ questo aspetto fondamentale…
![]()
Per capire meglio la qualità dell’output prodotta dai modelli linguistici, bisogna fare luce sui dati testuali usati nelle varie fasi di addestramento dei modelli. Uno degli aspetti più importanti di cui bisogna essere consapevoli quando si usano i modelli linguistici attraverso interfacce come ChatGPT è che i testi generati in italiano sono prodotti da sistemi addestrati su dati in cui l’inglese è sovrarappresentato. Basta considerare i dati nella tabella sottostante: il 93% dei dati di addestramento di GPT-3 è in lingua inglese, mentre solo il 0,6% è in italiano. Non sappiamo nulla sui modelli della famiglia GPT sviluppati dopo GPT-3 (a cominciare da GPT-3.5), ma è probabile che la situazione non sia cambiata molto e che l’inglese continui a prevalere nei corpora di addestramento. L’inglese prevale anche nei dati di addestramento di Teuken-7B (il modello sviluppato da OpenGPT-X): il 41,7% dei testi è scritto in questa lingua, mentre solo il 4,7% è redatto in italiano. Nei dati di Minerva, invece, inglese e italiano sono rappresentati in modo equo.
Lingue dei testi di addestramento | |||||
Modelli linguistici | inglese | francese | tedesco | spagnolo | italiano |
GPT-3 | 93% | 1,8% | 1,5% | 0,8% | 0,6% |
Teuken-7B | 41,7% | 9,1% | 8,7% | 8% | 4,7% |
| Minerva-7B | 50% | – | – | – | 50% |
I dati riportati nella tabella per GPT-3 e Teuken-7B evidenziano un problema pervasivo nella tecnologia di cui stiamo parlando: i modelli linguistici sono associati a un bias relativo al bilanciamento delle lingue storico-naturali nei dati di addestramento. Questo bias, di natura linguistica, si aggiunge a tutte le altre categorie di bias presenti nei dati di addestramento (pensiamo ai bias di natura culturale, sociodemografica, politico-ideologica ecc.), che si rispecchiano o addirittura si amplificano poi nei testi generati.
Gli effetti del bias linguistico sull’italiano generato
Il bias linguistico relativo ai dati di addestramento di molti modelli ha effetti significativi (e ancora poco noti) sull’output prodotto da questi modelli. Anche se non sono del tutto equiparabili, questi effetti possono essere paragonati in un primo momento alle interferenze linguistiche osservabili nei testi scritti da persone di madrelingua inglese che non padroneggiano appieno la lingua italiana. Nei testi generati in italiano, in altri termini, le interferenze con l’inglese possono essere concepite come il frutto di un nuovo tipo di contatto linguistico, che si verifica nell’architettura dei modelli linguistici.
Le interferenze con l’inglese che si riscontrano nei testi generati in italiano si osservano a tutti i livelli della lingua: a livello (orto)grafico, interpuntivo, lessicale, grammaticale e perfino testuale (per approfondimenti, cfr. De Cesare 2024). I fenomeni più vistosi sono quelli relativi al lessico. Alcuni esempi, tratti da testi generati con diversi modelli della famiglia GPT, sono messi in rilievo nelle citazioni seguenti:
- Samantha Cristoforetti è un astronauta italiano, nata il 26 aprile 1977 a Milan. [GPT-3.5]
- Mazzoleni è specializzata in diversi campi, tra cui architettura, storia dell’art, rilievo e restauro. [GPT-4]
- Mi dispiace, ma non ci sono dati disponibili su una persona con il nome di Maria Adriana Giusti. Potrebbe essere che sia una persona privata o meno conosciuta […]. Se si tratta di una figura pubblica, assicurati che il nome sia scritto correttamente. Proofread [nel senso di controllare] il nome e riprova. [GPT-4]
- Grazia Deledda è ricordata per il suo stile narrativo originale, che combinava realismo e romanticismo, e per le sue capacità descriptive uniche. [GPT-4]
- Antonia Pasqua Recchia continua a essere attiva nel suo lavoro, ispirando generazioni di attivisti e advocate [sostenitori; si noti che il sostantivo inglese è al singolare] attraverso il suo instancabile impegno per un mondo più giusto e equo. [GPT-4o-mini]
La presenza, nell’output testuale dei modelli linguistici, di parole inglesi sconosciute in italiano – che non fanno parte del lessico italiano e non sono dunque registrate nei dizionari – si spiega con il fatto che i sistemi di intelligenza artificiale generativa alla base di modelli come GPT compongono parole, frasi e testi a partire da unità basiche appartenenti anche (o meglio: soprattutto) alla lingua inglese. Le unità di base dei testi generati sono chiamate token. Un token può coincidere con una parola ma si tratta in generale di un’unità più piccola: siamo a livello del morfema (ovvero della più piccola unità di significato) o del grafema (ovvero di una lettera). Un’altra, evidente, traccia dell’inglese riscontrabile a livello grafico è per esempio l’uso della maiuscola all’inizio dei nomi di mesi:
- Anna Magnani (7 Marzo 1908 – 26 Settembre 1973) è stata un’icona del cinema italiano e una tra le attrici più acclamate del XX secolo. [GPT-4]
Per approfondire
Cicero, Francesco. 2023. L’italiano delle intelligenze artificiali generative. Italiano LinguaDue 15(2). 733-761. https://dx.doi.org/10.54103/2037-3597/21990
De Cesare, Anna-Maria. 2024. Nuove dinamiche di contatto linguistico: Le “impronte digitali” dell’inglese nell’italiano generato da LLM. Lingua Italiana d’Oggi XXI. 67-91.
Ferrara, Alfio. 2025. Le macchine del linguaggio. L’uomo allo specchio dell’intelligenza artificiale. Torino: Einaudi.
0 Commenti
Lascia un commento