Michele Corazza
Alma Mater Studiorum – Università di Bologna
Machine learning e sistemi di scrittura indecifrati: da Big Data a Small Data
Nell’ambito della linguistica computazionale, l’utilizzo di sistemi di apprendimento automatico o machine learning è ormai pervasivo e l’applicazione di tali strumenti ha portato ad un avanzamento generale dello stato dell’arte. Tali approcci hanno infatti importanti vantaggi rispetto a metodi tradizionali e basati su una codifica formale di regole per il linguaggio naturale: apprendendo il comportamento desiderato a partire dai dati, la loro applicazione è possibile anche nei casi in cui non sia possibile stabilire regole precise per effettuare il compito richiesto.
Tuttavia, questi metodi sono “affamati” di dati, la loro efficacia è infatti strettamente legata alla quantità di dati a disposizione per apprendere un determinato task. Oltretutto, i modelli vengono solitamente addestrati sfruttando approcci di cosiddetto apprendimento supervisionato, per i quali viene fornita al sistema una grande quantità di dati annotati, che contengono cioè informazioni sul compito che il sistema dovrà svolgere.
Se confrontiamo questa situazione con quella dei sistemi di scrittura indecifrati è immediatamente chiaro come vengano meno alcune delle premesse che hanno condotto ai recenti successi del machine learning. La quantità di documenti inscritti in un sistema di scrittura indecifrato è infatti inferiore alla grande quantità di dati a nostra disposizione per lingue vive come l’italiano o l’inglese. Inoltre, i dati a nostra disposizione sono per definizione non annotati, in quanto il loro contenuto è ignoto anche agli esperti. In certi casi è altresì impossibile una rappresentazione simbolica dei dati, in quanto non è sempre possibile trascrivere i segni delle scritture indecifrate, perché l’inventario dei segni potrebbe non essere noto ed essere invece l’obiettivo dello studio, come ad esempio nel caso del ciprominoico¹. Quali sono, dunque, le informazioni a nostra disposizione per lo studio di un sistema di scrittura antico il cui inventario dei segni sia ignoto? Sono solo due tipi di dati: l’aspetto grafico dei segni e l’ordine in cui essi appaiono nei documenti.
Sistemi indecifrati: approcci crittografici
Tralasciando momentaneamente l’aspetto grafico dei segni, è importante considerare quali potrebbero essere gli approcci per consentire di ricondurre i segni di un sistema di scrittura ai fonemi della lingua che essa trascrive o ai segni di una scrittura decifrata. Procedendo per complessità crescente, immaginiamo che il sistema indecifrato altro non sia che un alfabeto che ha le lettere con lo stesso ruolo e valore fonetico di quelle inglesi, ma che esse risultino graficamente distinte. Si tratterebbe in questo caso di un cosiddetto cifrario per sostituzione, ovvero un testo codificato nel quale ad ogni lettera dell’alfabeto di partenza ne viene sostituita un’altra. In situazioni di questo tipo, sebbene il numero di possibili soluzioni al problema sia molto alto (26! o circa 1026 per l’alfabeto inglese) è quasi sempre possibile individuare una soluzione basandosi solo sulla frequenza dei segni. In particolare, sappiamo che la lettera “E” è la più frequente in inglese, seguita da T, A, O, I. Sarebbe dunque possibile ricostruire parti di parole sfruttando solo queste informazioni, e procedere per tentativi per decifrare i segni rimanenti. In media, un cifrario per sostituzione può essere risolto usando pochissimi caratteri in inglese (Figura 1).
![]()
Figura 1: Un sistema automatico decifra un crittogramma criptato usando un cifrario a sostituzione. Software: CiperCracker di StevePaget
Il caso precedente, tuttavia, è un problema molto semplificato rispetto alla decifrazione di un sistema di scrittura reale. Infatti, una serie di fattori contribuisce a complicare tali decifrazioni:
- I sistemi di scrittura indecifrati sono spesso sillabici o logosillabici. Pertanto, ad ogni segno corrispondono uno o più fonemi. Inoltre, il passaggio fra sistemi alfabetici e sillabici si avvale di convenzioni per gestire situazioni non trascrivibili dalle sillabe aperte, come le consonanti alla fine di parole o due o più consonanti di seguito.
- I valori fonetici delle parole possono essere mutati nel tempo, oppure potrebbe essere mutato il modo in cui essi vengono trascritti.
- La lingua trascritta da un sistema di scrittura indecifrato è generalmente ignota, per cui è necessario scoprire di che lingua si tratti.
Per queste ragioni, l’applicazione di sistemi basati su sostituzione risulta inadeguata ed è necessario osservare le proprietà delle sequenze di segni nelle parole. Per illustrare l’importanza di tali aspetti è interessante descrivere in breve il processo che ha condotto alla decifrazione della lineare B². Il primo aspetto interessante è l’ipotesi che la lineare B avesse natura flessionale, grazie alla scoperta da parte di Alice Kober (1945) di parole costituite da una radice comune e suffissi variabili. A partire da tale intuizione, Michael Ventris (1953) suppose che un segno che appariva molto frequentemente all’inizio di parole corrispondesse al suono “a” o alla lettera “α” dell’alfabeto greco. Tuttavia, anche supponendo che la lineare B trascrivesse il greco e conoscendo il segno per “a”, il passaggio successivo fu ottenuto solo comparando i segni con quelli del decifrato sillabario greco cipriota³, ottenendo così le sillabe “ni” e “ti”. Successivamente, tali valori vennero usati per decifrare il toponimo “Amnisos” (a-mi-ni-so). A partire da tali passaggi partì così un processo a cascata che condusse alla decifrazione dell’intero sistema di scrittura. Ciò dimostra come sia fondamentale considerare la sequenza e la posizione dei segni nelle parole per tentare una decifrazione e questo è certamente vero anche quando vengono adottati strumenti automatici.
I recenti approcci simbolici alla decifrazione sfruttano modelli che tengono conto della sequenza di segni nelle parole. In particolare, si tratta di tecniche che cercano di far corrispondere segni del sistema di scrittura indecifrato con quelli del sistema noto, al fine di individuare e decifrare parole imparentate (in inglese cognate) fra le due scritture.
Ricostruire un inventario di segni: sequenze e disegni
![]()
Figura 2: Tramite l’applicazione di un modello neurale chiamato Sign2Vec (al centro) ai segni del ciprominoico (a sinistra) abbiamo ottenuto una rappresentazione tridimensionale di tutti i segni (in alto a destra) e abbiamo confermato varie ipotesi di allografia sulle quali non vi era consenso fra gli esperti (in basso a destra).
Vista l’importanza delle sequenze di segni e della loro posizione nelle parole, è necessario considerare tali aspetti per ogni sistema automatico che tratti sistemi di scrittura indecifrati. Che fare, però, quando anche l’inventario dei segni di una scrittura è ignoto? È necessario in questo caso combinare l’aspetto grafico dei segni con l’ordine in cui essi appaiono. Lo scopo è quello di creare un clustering dei segni, ovvero una categorizzazione che non dipende da alcun tipo di assunzione sulla loro natura o annotazione manuale, un approccio che viene quindi detto non supervisionato.
Per sviluppare tale metodo, è utile partire da disegni dei singoli segni, non da fotografie. Questa scelta è motivata da due fattori:
- I disegni risultano essere preferibili a fotografie in quanto le informazioni rilevanti alla classificazione dei segni (la loro forma) vengono rappresentate nella maniera più sintetica possibile;
- Poiché l’approccio è non supervisionato, classificazioni sulla base del colore del manufatto o del materiale sono sempre possibili e valide. Tuttavia, il sistema dovrebbe invece concentrarsi sulla classificazione dei grafemi che compongono il sistema di scrittura. Utilizzando i disegni viene eliminata questa possibilità, in quanto l’aspetto dei documenti è escluso da ogni analisi.
A tal fine, dunque, abbiamo sviluppato un sistema da noi denominato Sign2Vec, che tenta di effettuare un clustering, ovvero di individuare automaticamente gruppi omogenei, di segni. Sign2Vec, in particolare, combina un approccio per il clustering di immagini con una componente “contestuale”. Lo scopo di Sign2Vec è quello di investigare l’inventario dei segni di scritture indecifrate (in particolare il ciprominoico), prerequisito per ogni tentativo di decifrazione. Il modello di base è allenato a prevedere il cluster (il gruppo di appartenenza) di ciascun segno, mentre la componente contestuale viene istruita a prevedere ciascun segno a partire da quelli adiacenti. Per validare l’approccio, abbiamo utilizzato il sillabario greco cipriota, che è il sistema di scrittura decifrato più prossimo al Cipro-Minoico, essendo anch’esso attestato a Cipro. Si tratta di un sistema decifrato che trascrive un dialetto del greco antico, è quindi possibile utilizzarlo per valutare se il nostro sistema sia in grado di categorizzare correttamente i segni. Nei nostri esperimenti abbiamo dimostrato che includere una componente contestuale migliora la qualità del clustering ottenuto. Infine, tale approccio è stato applicato al ciprominoico. Una prima valutazione qualitativa è stata effettuata utilizzando una visualizzazione tridimensionale degli output del modello, dalla quale è emerso che nello spazio vettoriale (uno spazio geometrico in cui i segni sono tanto più vicini quanto sono più simili) è presente una separazione fra segni inscritti su tavolette di argilla e quelli presenti su altro tipo di supporto (palle di argilla, cilindri di argilla, vasi, etc). A partire da tale separazione, abbiamo poi usato un vettore da noi definito “paleografico” per rappresentare queste differenze. Applicando tale vettore a ipotesi di allografia (cioè segni che rappresentano lo stesso suono) abbiamo ottenuto la conferma di 10 ipotesi (mostrate in Figura 2) su cui non vi era accordo nella comunità scientifica, mostrando la validità dell’approccio e avanzando lo stato dell’arte nella disciplina.
![]()
Figura 3: Le 10 ipotesi di allografia confermate da Sign2Vec
¹ Sull’isola di Cipro è attestato un sistema di scrittura che è chiaramente influenzato dai sistemi di scrittura attestati a Creta, ma che possiede caratteristiche proprie. Tale sistema di scrittura si chiama ciprominoico.
² Dopo il declino della civiltà minoica, i micenei adottarono un sistema di scrittura simile alla precedente lineare A, oggi noto come lineare B. Tale sistema di scrittura è decifrato e trascrive un dialetto del greco.
³ La più tarda delle scritture sillabiche dell’Egeo, è attestata a Cipro nell’età del ferro.
Per approfondire
Kober, Alice. 1945. Evidence of Inflection in the ‘Chariot’ Tablets from Knossos. American Journal of Archaeology 49, n. 2, 143–51.
Ventris, Michael & Chadwick, John. 1953. Evidence for Greek Dialect in the Mycenaean Archives. The Journal of Hellenic Studies, 73, 84–103.
Sistemi di scrittura indecifrati
https://site.unibo.it/inscribe/: sito del progetto INSCRIBE, che ha finanziato la mia ricerca e si occupa dell’invenzione della scrittura
Ferrara, Silvia. 2021. La grande invenzione: storia del mondo in nove scritture misteriose. Feltrinelli Editore.
Approcci di decifrazione simbolica (in inglese)
Berg-Kirkpatrick, Taylor & Klein, Dan. 2013. Decipherment with a million random restarts. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 874–878. Seattle, Washington (USA): Association for Computational Linguistics.
Luo, Jiaming, Cao, Yuan & Barzilay, Regina 2019. Neural decipherment via minimum-cost flow: From Ugaritic to Linear B. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3146–3155. Florence (Italy): Association for Computational Linguistics.
Tamburini, Fabio. 2023. Decipherment of Lost Ancient Scripts as Combinatorial Optimisation Using Coupled Simulated Annealing. In Proceedings of the Workshop on Computation and Written Language (CAWL 2023), 82–91 Toronto (Canada): Association for Computational Linguistics.
Decifrazione delle frazioni Lineare A (in inglese):
Corazza, Michele; Ferrara, Silvia; Montecchi, Barbara; Tamburini, Fabio & Valério, Miguel. 2021. The mathematical values of fraction signs in the Linear A script: A computational, statistical and typological approach. Journal of Archaeological Science 125, 105214.
Intelligenza artificiale e sistemi di scrittura indecifrati (in inglese)
Born, Logan; Monroe, M. Willis; Kelley, Kathryn & Sarkar, Anoop. 2023. Learning the Character Inventories of Undeciphered Scripts Using Unsupervised Deep Clustering. In Proceedings of the Workshop on Computation and Written Language (CAWL 2023), 92–104, Toronto (Canada): Association for Computational Linguistics.
Corazza, Michele; Tamburini, Fabio; Valério, Miguel & Ferrara, Silvia. 2022. Unsupervised deep learning supports reclassification of Bronze age cypriot writing system. PloS one 17,7.
Corazza, Michele. 2022. Unsupervised deep learning for ancient Aegean scripts: from deciphered to undeciphered. Lingue e linguaggio, 21, 2, 311-331.
0 Commenti
Lascia un commento