Il linguaggio naturale è alla base dello sviluppo tecnologico dell’intelligenza artificiale. Basti pensare agli strumenti in grado di produrre, tradurre e riconoscere testi perché addestrati su documenti di ogni settore e dominio. Il rapporto tra computer e lingua, negli anni recenti, è diventato sempre più stretto, e quella che chiamiamo intelligenza artificiale è, in fondo, tecnologia avanzata del linguaggio. Se la lingua naturale è il pane quotidiano del linguaggio informatico, è lecito anche domandarsi come può invece il computer mettersi al servizio della lingua in modo da favorire e semplificare l’indagine linguistica.
La disciplina della linguistica computazionale ha come ambito di studio proprio l’utilizzo dell’informatica per analizzare la lingua con l’obiettivo di estrarre informazioni (data mining) e riconoscere le sfumature dei significati, ovvero le tecniche di NLP (Natural Language Processing). Per farlo, la linguistica computazionale si avvale dei corpora, ampi documenti che attestano determinati usi linguistici, come articoli di giornale, testi pubblicati, trasmissioni trascritte e altre tipologie di testo, a condizione che siano “leggibili dalla macchina” (machine-readable). I progressi della tecnologia consentono di raccogliere e consultare corpora sempre più grandi, con una mole di testi sempre maggiore, permettendo una diversificazione linguistica che altrimenti non sarebbe possibile. Questo processo è stato semplificato ancor di più con l’avvento del web, che viene considerato da alcuni un grande corpus. I dati del corpus sono essenziali perché, senza di essi, gli approcci all’NLP basati sull’apprendimento automatico non potrebbero funzionare.
Il trattamento automatico del linguaggio parte dalla segmentazione di un testo elettronico, detta tokenizzazione, in cui ogni unità viene definita token. Solitamente, le unità sono divise da uno spazio. Per alcune lingue, come l’italiano, queste unità corrispondono generalmente alla singola parola; in altre (ad esempio il tedesco, dove le parole sono spesso composte) è necessario apportare un’ulteriore divisione, quindi uno spazio aggiuntivo. Una volta suddiviso il testo in token, si passa alla fase di codificazione, nella quale il tool riconosce l’identità dell’elemento aggiungendo informazioni linguistiche. Questo processo serve ad addestrare gli algoritmi automatizzati di
I sistemi di NLP possono essere impiegati in vari processi, come l’estrazione di informazioni a partire dai testi, i riassunti, l’estrazione di significato dei termini, l’identificazione di diversi concetti e il cosiddetto web mining. Non solo, si applicano anche per la
Le tecnologie basate sul Natural Language Processing permettono di acquisire le informazioni linguistiche, le occorrenze e i significati del contesto di questi corpora settoriali, ed acquisire una maggiore consapevolezza delle LSP (Language for Special Purposes). Tra i linguaggi settoriali, quello giuridico è intrinsecamente connesso al linguaggio naturale e presenta una sintassi molto più complessa e una semantica ambigua. L’Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC) del CNR di Pisa ha dato vita ad ItaliaNLP Lab, un laboratorio che applica i modelli di
Il sistema di estrazione di informazioni dell’istituto ha addestrato gli strumenti su articoli di giornale e testi normativi e amministrativi con un approccio contrastivo tra linguaggio ordinario e linguaggio giuridico. In questo modo è stato possibile annotare e acquisire le informazioni di questo dominio allo scopo di creare un’ontologia strutturata, utile per le intelligenze artificiali. Un’ontologia della semantica giuridica aiuta anche nel processo legislativo, sia nazionale che europeo, permettendo maggiore accessibilità, come dimostra il progetto europeo DALOS, che supporta il drafting legislativo a livello multi linguistico.
Oltre agli ambiti di applicazione più avanzati di traduzione automatica e redazione di testi giuridici complessi utili nel mondo legale, la linguistica computazionale presenta notevoli spunti per la redazione legislativa. Grazie agli strumenti di NLP è possibile analizzare la leggibilità dei testi giuridici, offrendo un quadro sulla comprensione di questo linguaggio e aprendo alla possibilità di un miglioramento della leggibilità in fase di drafting.
READ-IT: il primo strumento di leggibilità per la lingua italiana
La leggibilità è un elemento essenziale della comprensione: se un testo è leggibile, infatti, significa che può essere recepito. La comprensione, soprattutto dei testi di legge, è un requisito imprescindibile perché ci sia un’effettiva comunicazione tra cittadino e istituzione. Per analizzare questa condizione, più che fondamentale per i testi del diritto sia di carattere normativo che amministrativo, il laboratorio di Pisa ha sviluppato READ-IT, il primo tool volto alla semplificazione linguistica tarato sulla lingua italiana. L’obiettivo è sviluppare una maggiore accessibilità agli atti e garantire il diritto all’informazione e alla trasparenza amministrativa.
Prima dell’avvento degli strumenti di linguistica computazionale, il test di leggibilità si basava sull’indice
Read-IT, grazie al sistema di linguaggio Dylan Text tools, suddivide il testo in
L’analisi linguistica computazionale del diritto è una branca fondamentale del legal tech, utile per l’analisi, la classificazione dei testi, la stesura di bozze normative e testi amministrativi e l’accessibilità del diritto. Per rendere realmente innovative e all’avanguardia le tecnologie future di intelligenza artificiale generativa dobbiamo necessariamente partire da una conoscenza profonda del testo di lingua naturale.
Riferimenti
Testo e computer – elementi di linguistica computazionale a cura di A. Leoci, S. Montemagni, V. Pirrelli, Carocci editore, 2005
“First Shared Task on Dependency Parsing of Legal Texts” at SPLeT 2012 | Italian Natural Language Processing Lab (italianlp.it)
Evalita 2011 “Domain Adaptation for Dependency Parsing” | Italian Natural Language Processing Lab (italianlp.it)
Natural language processing and legal knowledge extraction (italianlp.it)
Le tecnologie linguistico-computazionali nella misura della leggibilità di testi giuridici, D. Brunato, G. Venturi in Informatica e diritto, 2014
IeD_2014_01_BrunatoVenturi.pdf (cnr.it)
READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification, F. Dell’Orletta, S. Montemagni, G. Venturi Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC–CNR), Pisa