Università Cattolica del Sacro Cuore, Milano
«Ma cos’è la linguistica computazionale? E a cosa serve?»
Il linguista computazionale di turno, da anni aduso alla ripetuta spiegazione della propria professione e del suo perché, tende a rispondere a queste domande richiamando strumenti e applicazioni che sono ormai nelle mani di tutti: ad esempio, correttori ortografici nei sistemi di videoscrittura e nella messaggistica, chatbot, o assistenti interattivi quali Siri e Alexa.
Il trattamento automatico del linguaggio, cuore della linguistica computazionale, sembra insomma strettamente legato alla contemporaneità digitale e iperconnessa, mentre ogni riferimento all’antichità e, in particolare, a quella delle lingue classiche, che sono addirittura ‘morte’, non pare avere diritto di cittadinanza nell’ambito di una disciplina tanto legata al presente e con gli occhi sempre rivolti al futuro.
Eppure, proprio il latino ha recitato un ruolo di punta nella storia dell’analisi automatica dei dati linguistici. Se si vuole trovare un anno che segni l’avvio della ricerca in questo settore, esso è il 1949, quando un trentacinquenne gesuita veneto, di nome Roberto Busa, riuscì a convincere Thomas Watson Sr., allora CEO dell’IBM, a finanziargli un progetto che gli meritò presso gli ingegneri dell’azienda la nomea di more American than Americans, ovvero ‘completamente matto’: trattare computazionalmente i testi, in latino, di Tommaso d’Aquino, con gli enormi computer allora prodotti dall’IBM.
Il lavoro di padre Busa, oggi considerato tra i pionieri della linguistica computazionale, arrivò a compimento nella seconda metà degli anni Settanta del secolo scorso, con la pubblicazione dell’Index Thomisticus (Busa 1974-1980), ovvero le concordanze degli 11 milioni di parole presenti nei testi di Tommaso, prodotte automaticamente sulla base del corpus dell’opera omnia tomistica, registrata su supporto elettronico (oggi diremmo ‘digitalizzata’). La Figura 1 mostra il laboratorio di analisi automatica del linguaggio di padre Busa nel 1967: si notino, sulla destra, le persone impegnate nel lavoro di perforazione delle schede, opera necessaria a trasferire i testi di Tommaso su un supporto processabile dai computer. La Figura 2 riporta la fotografia della scheda perforata per la parola cibus.
Va detto, tuttavia, che, a fronte di una partenza in pole position, lo sviluppo di strumenti di trattamento automatico del linguaggio e di risorse linguistiche (come corpora testuali e lessici digitali) per le lingue classiche non ha tenuto lo stesso ritmo di quello per le lingue moderne e vive. Evidenti ragioni, connesse all’impatto sociale ed economico delle ricerche sull’automazione dell’analisi linguistica, hanno fatto sì che, nei decenni, il principale interesse del settore non si sia concentrato in prima istanza su lingue che sono antiche, a corpus chiuso e non più parlate.
Ma è altrettanto chiaro che lo studio di queste lingue presenta un bisogno particolarmente forte di costante confronto con i dati testuali, proprio a causa dell’assenza di parlanti nativi; il che comporta che i testi rimastici dall’antichità siano non solo di importante valore storico, ma rappresentino anche le uniche fonti che abbiamo per poter conoscere e indagare il latino e il greco antico. Ecco, quindi, perché fin dagli anni Ottanta del Novecento i testi nelle lingue classiche sono stati resi disponibili in formato elettronico, ad esempio in grandi Digital Libraries come Perseus (http://www.perseus.tufts.edu), che fu avviata proprio con l’obiettivo di raccogliere le versioni digitali dei testi della classicità greca e latina. Questa situazione si è progressivamente evoluta in una sorta di paradosso: se da un lato i classicisti sono tra gli studiosi che maggiormente necessitano del confronto con l’evidenza testuale e, quindi, dell’analisi approfondita dei contenuti forniti dai corpora, dall’altro una parte della loro comunità si è dimostrata refrattaria all’uso di strumenti computazionali quali ausilii essenziali al proprio lavoro quotidiano, in nome di un conservatorismo metodologico che ha contribuito a mantenere il settore distante dallo stato dell’arte vigente nella linguistica computazionale.
Con il nuovo millennio, tuttavia, si è assistito a una crescente intesa tra i due mondi, soprattutto grazie all’avvio, nel 2006, dei primi progetti mirati alla realizzazione di treebank (ovvero, corpora sintattici) per il latino prima e per il greco antico poi. Accanto alle ricerche nel settore della filologia digitale e computazionale, rimaste sempre piuttosto fiorenti negli anni, la creazione dei primi corpora arricchiti con livelli di annotazione linguistica, che rispettassero criteri e formati ampiamente adottati nella comunità linguistico-computazionale, fu il volano che diede impulso all’aggiornamento della ricerca nel campo del trattamento automatico delle lingue classiche, per le quali fino ad allora erano disponibili solo strumenti di analisi fondamentale, quali analizzatori morfologici e lemmatizzatori. In una sorta di circolo virtuoso, la disponibilità di strumenti di trattamento automatico del greco e del latino, capaci di fornire buone prestazioni per diversi livelli di annotazione linguistica, permise uno sviluppo più rapido di nuove raccolte testuali digitali annotate che, unitamente alla crescente facilità della loro distribuzione e accesso, ha consentito di mettere nelle mani dei classicisti un pacchetto di risorse e strumenti tale che oggi il latino e il greco antico non possono essere più considerate less-resourced languages.
Oltre a numerosi corpora, e a collezioni che raccolgono testi di vario tipo (letterari, storici, documentari, epigrafici etc.), e di varia epoca, coprendo, per il latino, un arco diacronico superiore ai due millenni, sono oggi disponibili per le lingue classiche sia risorse lessicali avanzate, come WordNet (Minozzi 2017; Bizzoni et al. 2014), lessici di valenza (McGillivray & Vatri 2015; Passarotti & Saavedra 2016) e di polarità (Sprugnoli et al. 2020a), sia strumenti di trattamento automatico del linguaggio metodologicamente avanzati e capaci di fornire valori di accuratezza sullo stato dell’arte, come PoS tagger (che attribuiscono la parte del discorso alle parole di un testo) e parser sintattici (che producono l’analisi sintattica delle frasi). A tal proposito, si è tenuta nel maggio del 2021 la prima edizione di EvaLatin, un evento dedicato alla valutazione comparativa di strumenti di trattamento automatico della lingua latina, che vengono addestrati, applicati e, infine, valutati su testi latini condivisi tra i sistemi partecipanti (Sprugnoli et al. 2020b).
Negli ultimi anni, la disponibilità di una siffatta, crescente massa di risorse e strumenti computazionali per le lingue classiche ha sollevato la necessità dello sviluppo di un ‘luogo condiviso’ ove essa possa non solo essere raccolta, ma anche strutturata in modo tale che i suoi contenuti diventino interoperabili sul web, ovvero capaci di interagire tra loro. Per quanto riguarda il latino, questo è l’obiettivo del progetto ERC-Consolidator LiLa: Linking Latin (https://lila-erc.eu; Mambrini et al. 2020), che applica un paradigma chiamato Linked Data (alla base del Semantic Web) alle risorse e agli strumenti per il latino costruiti nei decenni, valorizzandoli attraverso la possibilità di farne interrogazioni e analisi trasversali (‘federate’), che consentono, ad esempio, di cercare in più corpora latini le occorrenze testuali di parole che condividono tra loro certe proprietà, a loro volta fornite da più lessici. Si tratta, in sostanza, dell’utilizzo contemporaneo dei dati e dei metadati forniti da tutte le risorse linguistiche oggi disponibili per la lingua latina. La Figura 3 mostra come la parola latina admiror (con variante grafica ammiror), registrata nella base lessicale di LiLa, sia connessa, attraverso la relazione Canonical Form, alle entrate lessicali di due risorse, rese interoperabili da LiLa: sulla sinistra è visibile l’informazione fornita da un lessico morfologico-derivazionale, che stabilisce una relazione tra admiror (‘source’) e il suo derivato admirabilis (‘target’); sulla destra è riportata l’entrata di admiror in Latin WordNet, dove la parola appartiene a un ‘synset’ (ovvero, un insieme di parole legate da un rapporto di sinonimia concettuale), che include anche le parole aestimo e amo. Ciascuna di queste parole, a propria volta, è connessa, ancora attraverso Canonical Form, alle corrispondenti entrate nella base lessicale di LiLa: e, da lì, a tutte le proprie occorrenze testuali nei corpora allacciati a LiLa.
Oggi il latino incontra, dunque, il Semantic Web e, nel farlo, si pone nuovamente all’avanguardia della linguistica computazionale. Perché fare linguistica delle lingue antiche significa fare linguistica dei corpora; e fare linguistica dei corpora, oggi, significa fare (anche) linguistica computazionale.
Per approfondire
Bizzoni, Yuri, Federico Boschetti, Harry Diakoff, Riccardo Del Gratta, Monica Monachini & Gregory Crane. 2014. The Making of Ancient Greek Wordnet. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC 2014). 1140-1147. Reykjavik, Iceland: European Language Resources Association (ELRA).
Busa, Roberto. 1974-1980. Index Thomisticus. Stuttgart-Bad Cannstatt: Frommann-Holzboog.
Mambrini, Francesco, Flavio M. Cecchini, Greta Franzini, Eleonora Litta, Marco Passarotti & Paolo Ruffolo. 2020. LiLa: Linking Latin Risorse linguistiche per il latino nel Semantic Web. Umanistica Digitale 8(20). 63-78.
McGillivray, Barbara & Alessandro Vatri. 2015. Computational valency lexica for Latin and Greek in use: a case study of syntactic ambiguity. Journal of Latin Linguistics 14(1). 101-126.
Minozzi, Stefano. 2017. Latin WordNet, una rete di conoscenza semantica per il latino e alcune ipotesi di utilizzo nel campo dell’Information Retrieval. In Paolo Mastandrea (a cura di), Strumenti digitali e collaborativi per le Scienze dell’Antichità, 123-134. Venezia: Edizioni Ca’ Foscari.
Passarotti, Marco & Berta González Saavedra. 2016. Verso un lessico di valenza del latino empiricamente motivato. RiCOGNIZIONI 3(6). 51-68.
Sprugnoli, Rachele, Marco Passarotti, Daniela Corbetta & Andrea Peverelli. 2020a. Odi et Amo. Creating, Evaluating and Extending Sentiment Lexicons for Latin. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC 2020), 3078-3086. Paris, France: European Language Resources Association (ELRA).
Sprugnoli, Rachele, Marco Passarotti, Flavio M. Cecchini, & Matteo Pellegrini. 2020b. Overview of the EvaLatin 2020 Evaluation Campaign. In Proceedings of LT4HALA 2020 Workshop – 1st Workshop on Language Technologies for Historical and Ancient Languages, satellite event to the Twelfth International Conference on Language Resources and Evaluation (LREC 2020), 105-110. Paris, France: European Language Resources Association (ELRA).
Le immagini qui riportate sono tratte dall’Archivio Busa e rese disponibili dalla Biblioteca dell’Università Cattolica del Sacro Cuore di Milano sotto una licenza Creative Commons CC-BY-NC. Per ulteriori informazioni o per richieste di riutilizzo delle immagini, si contatti Marco Passarotti (marco.passarotti@unicatt).
0 Commenti
Lascia un commento