READ-IT di ItaliaNLP Lab: gli strumenti di linguistica computazionale per la leggibilità del diritto

Il linguaggio naturale è alla base dello sviluppo tecnologico dell’intelligenza artificiale. Basti pensare agli strumenti in grado di produrre, tradurre e riconoscere testi perché addestrati su documenti di ogni settore e dominio. Il rapporto tra computer e lingua, negli anni recenti, è diventato sempre più stretto, e quella che chiamiamo intelligenza artificiale è, in fondo, tecnologia avanzata del linguaggio. Se la lingua naturale è il pane quotidiano del linguaggio informatico, è lecito anche domandarsi come può invece il computer mettersi al servizio della lingua in modo da favorire e semplificare l’indagine linguistica.

La disciplina della linguistica computazionale ha come ambito di studio proprio l’utilizzo dell’informatica per analizzare la lingua con l’obiettivo di estrarre informazioni (data mining) e riconoscere le sfumature dei significati, ovvero le tecniche di NLP (Natural Language Processing). Per farlo, la linguistica computazionale si avvale dei corpora, ampi documenti che attestano determinati usi linguistici, come articoli di giornale, testi pubblicati, trasmissioni trascritte e altre tipologie di testo, a condizione che siano “leggibili dalla macchina” (machine-readable). I progressi della tecnologia consentono di raccogliere e consultare corpora sempre più grandi, con una mole di testi sempre maggiore, permettendo una diversificazione linguistica che altrimenti non sarebbe possibile. Questo processo è stato semplificato ancor di più con l’avvento del web, che viene considerato da alcuni un grande corpus. I dati del corpus sono essenziali perché, senza di essi, gli approcci all’NLP basati sull’apprendimento automatico non potrebbero funzionare.

Il trattamento automatico del linguaggio parte dalla segmentazione di un testo elettronico, detta tokenizzazione, in cui ogni unità viene definita token. Solitamente, le unità sono divise da uno spazio. Per alcune lingue, come l’italiano, queste unità corrispondono generalmente alla singola parola; in altre (ad esempio il tedesco, dove le parole sono spesso composte) è necessario apportare un’ulteriore divisione, quindi uno spazio aggiuntivo. Una volta suddiviso il testo in token, si passa alla fase di codificazione, nella quale il tool riconosce l’identità dell’elemento aggiungendo informazioni linguistiche. Questo processo serve ad addestrare gli algoritmi automatizzati di machine learning al fine di produrre testi ex novo. Esempi di codificazione sono la disambiguazione delle parole o le referenze. Le recenti e più raffinate tecniche di trattamento automatico del linguaggio permettono di sviluppare strumenti di scrittura automatizzata, evitando errori ortografici e sintattici.

I sistemi di NLP possono essere impiegati in vari processi, come l’estrazione di informazioni a partire dai testi, i riassunti, l’estrazione di significato dei termini, l’identificazione di diversi concetti e il cosiddetto web mining. Non solo, si applicano anche per la sentiment analysis e l’opinion mining dei consumatori e dei cittadini da parte di aziende e politici. Molte di queste applicazioni si rivelano utili in vari ambiti, da quello medico a quello legale. I corpora fungono da standard di riferimento di una lingua e offrono un ampio spettro di rappresentatività di quel codice. In quest’ottica sono particolarmente preziosi i corpora specialistici, ovvero quei corpus verticali focalizzati su uno specifico dominio linguistico settoriale.

Le tecnologie basate sul Natural Language Processing permettono di acquisire le informazioni linguistiche, le occorrenze e i significati del contesto di questi corpora settoriali, ed acquisire una maggiore consapevolezza delle LSP (Language for Special Purposes). Tra i linguaggi settoriali, quello giuridico è intrinsecamente connesso al linguaggio naturale e presenta una sintassi molto più complessa e una semantica ambigua. L’Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC) del CNR di Pisa ha dato vita ad ItaliaNLP Lab, un laboratorio che applica i modelli di NLP alla lingua italiana. Tra le varie iniziative di indagine e di analisi linguistica su testi appartenenti a domini diversi, il laboratorio ha dedicato particolare attenzione alla comprensione dei testi giuridici e alla loro leggibilità.

Le tecnologie basate sul Natural Language Processing permettono di acquisire le informazioni linguistiche, le occorrenze e i significati del contesto di questi corpora settoriali, ed acquisire una maggiore consapevolezza delle LSP (Language for Special Purposes). Tra i linguaggi settoriali, quello giuridico è intrinsecamente connesso al linguaggio naturale e presenta una sintassi molto più complessa e una semantica ambigua. L’Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC) del CNR di Pisa ha dato vita ad ItaliaNLP Lab, un laboratorio che applica i modelli di NLP alla lingua italiana. Tra le varie iniziative di indagine e di analisi linguistica su testi appartenenti a domini diversi, il laboratorio ha dedicato particolare attenzione alla comprensione dei testi giuridici e alla loro leggibilità.

Il sistema di estrazione di informazioni dell’istituto ha addestrato gli strumenti su articoli di giornale e testi normativi e amministrativi con un approccio contrastivo tra linguaggio ordinario e linguaggio giuridico. In questo modo è stato possibile annotare e acquisire le informazioni di questo dominio allo scopo di creare un’ontologia strutturata, utile per le intelligenze artificiali. Un’ontologia della semantica giuridica aiuta anche nel processo legislativo, sia nazionale che europeo, permettendo maggiore accessibilità, come dimostra il progetto europeo DALOS, che supporta il drafting legislativo a livello multi linguistico.

Oltre agli ambiti di applicazione più avanzati di traduzione automatica e redazione di testi giuridici complessi utili nel mondo legale, la linguistica computazionale presenta notevoli spunti per la redazione legislativa. Grazie agli strumenti di NLP è possibile analizzare la leggibilità dei testi giuridici, offrendo un quadro sulla comprensione di questo linguaggio e aprendo alla possibilità di un miglioramento della leggibilità in fase di drafting.

READ-IT: il primo strumento di leggibilità per la lingua italiana

La leggibilità è un elemento essenziale della comprensione: se un testo è leggibile, infatti, significa che può essere recepito. La comprensione, soprattutto dei testi di legge, è un requisito imprescindibile perché ci sia un’effettiva comunicazione tra cittadino e istituzione. Per analizzare questa condizione, più che fondamentale per i testi del diritto sia di carattere normativo che amministrativo, il laboratorio di Pisa ha sviluppato READ-IT, il primo tool volto alla semplificazione linguistica tarato sulla lingua italiana. L’obiettivo è sviluppare una maggiore accessibilità agli atti e garantire il diritto all’informazione e alla trasparenza amministrativa.

Prima dell’avvento degli strumenti di linguistica computazionale, il test di leggibilità si basava sull’indice Gulpease, messo a punto proprio sulla lingua italiana, a differenza della formula di Flesh, e valutava la difficoltà di un testo tenendo conto della lunghezza delle parole e delle frasi. I nuovi strumenti tengono conto anche di altri aspetti più complessi della lingua, non limitandosi alla lunghezza.

Read-IT, grazie al sistema di linguaggio Dylan Text tools, suddivide il testo in token e annota le parti della frase analizzandone la leggibilità sintattica, semantica e globale. I risultati mostrano la percentuale di lemmi appartenenti al Vocabolario di base di De Mauro, quanti invece sono di uso frequente e quanti di alto uso, ovvero complessi e di minore frequenza d’uso. L’analisi, inoltre, suggerisce anche dei margini di miglioramento, segnalando parti del testo o elementi su cui intervenire per renderlo più leggibile. READ-IT si è proposto come un precursore di strumentazione semi automatica in grado di revisionare e correggere e semplificare un testo.

L’analisi linguistica computazionale del diritto è una branca fondamentale del legal tech, utile per l’analisi, la classificazione dei testi, la stesura di bozze normative e testi amministrativi e l’accessibilità del diritto. Per rendere realmente innovative e all’avanguardia le tecnologie future di intelligenza artificiale generativa dobbiamo necessariamente partire da una conoscenza profonda del testo di lingua naturale.

Riferimenti

Testo e computer – elementi di linguistica computazionale a cura di A. Leoci, S. Montemagni, V. Pirrelli, Carocci editore, 2005
“First Shared Task on Dependency Parsing of Legal Texts” at SPLeT 2012 | Italian Natural Language Processing Lab (italianlp.it)
Evalita 2011 “Domain Adaptation for Dependency Parsing” | Italian Natural Language Processing Lab (italianlp.it)
Natural language processing and legal knowledge extraction (italianlp.it)
Le tecnologie linguistico-computazionali nella misura della leggibilità di testi giuridici, D. Brunato, G. Venturi in Informatica e diritto, 2014
IeD_2014_01_BrunatoVenturi.pdf (cnr.it)
READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification, F. Dell’Orletta, S. Montemagni, G. Venturi Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC–CNR), Pisa