I dati sintetici come soluzione per sfruttare il pieno potenziale della ricerca scientifica

Nell’ambito del lungo documento di Valutazione delle norme degli Stati membri dell’UE sui dati sanitari alla luce del GDPR (Assessment of the EU Member States’ rules on health data in the light of GDPR), la Commissione Europea – o meglio, nello specifico, la Direzione Generale per la Salute e la Sicurezza Alimentare – ha osservato che “vi sono divergenze nell’applicazione del GDPR nel contesto della ricerca sanitaria (…) Gli Stati membri stanno ampiamente utilizzando il margine di manovra offerto dal GDPR. È evidente che c’è una diversità di garanzie e di basi giuridiche che genera confusione e difficoltà tecniche in caso di esecuzione di ricerche inter-giurisdizionali”.

Infatti, sebbene l’Art. 5.1, b) del Regolamento Generale sulla Protezione dei Dati (n. 679/2016) preveda una “presunzione di compatibilità” che, a determinate condizioni – di sicurezza e di minimizzazione – consente il riutilizzo di dati personali anche per finalità di ricerca scientifica, quasi tutti gli Stati membri hanno adottato le proprie regole integrative per il trattamento secondario di dati sanitari in tale ambito, dando luogo ad una dannosa frammentazione normativa1.

Da un punto di vista pratico, il quadro è anche più complesso, principalmente in ragione di due fattori. Da un lato, il notevole divario concettuale innegabilmente esistente tra interpretazione legale e matematica (ed informatica) di “anonimizzazione dei dati2“, da cui consegue una profonda incertezza su quali scenari tecnologici siano in grado di soddisfare le esigenze di compliance sul fronte giuridico. Dall’altro, il fatto che il ricorso all’anonimizzazione sia ad oggi ancora oggettivamente rischioso per via di alcune incoerenze normative e di interpretazioni divergenti da parte delle competenti Autorità di controllo in merito al grado di irreversibilità che i processi di “de-identificazione” devono garantire affinché i dati possano essere considerati anonimi e non pseudonimi.3

Anche i fondamentali progetti TEHDAS e BBMRI hanno espressamente evidenziato queste criticità.
D’altro canto, a dispetto della pressante richiesta di soluzioni basate sui big data e sull’Intelligenza Artificiale, la scomoda verità è che finché la condivisione dei dati in ambito sanitario rimarrà sovra-regolamentata a livello nazionale, il raggiungimento della maggior parte degli ambiziosi obiettivi tecnologici fissati dalla Commissione Europea sarà fortemente a rischio, mentre enormi volumi di dati resteranno inutilizzati e frammentati in “silos” sotto la custodia dei titolari, attenti soprattutto a minimizzare i rischi di natura legale.

In questo scenario, però, alcune innovazioni tecnologiche stanno diventando sempre più determinanti per superare gli ostacoli sopra descritti, come la secure multi-party computation, la crittografia omomorfica e, in particolare, l’utilizzo di sistemi di machine learning per la produzione di dati sintetici4.

A quest’ultimo proposito esistono diversi tipi di dati sintetici, ma il termine si riferisce essenzialmente alla generazione di dati artificiali in grado di riprodurre le proprietà statistiche di un dataset originale. Ciò avviene attraverso l’apprendimento delle distribuzioni e relazioni rilevanti nell’ambito di un determinato set di dati reali, utilizzando un modello generativo, per poi imitarle e sottoporle a campionamento per produrre dataset del tutto fittizi, ma pienamente attendibili perché caratterizzati dalle stesse proprietà statistiche di quelli originali. Ciò consente di rafforzare moltissimo il livello di protezione dei dati personali e quindi della privacy dei pazienti, mantenendo al contempo la piena utilità del nuovo set di dati per finalità di analisi statistica e ricerca medica.

Gli output possono essere parzialmente o totalmente sintetici: nel primo caso si avranno dati prodotti artificialmente insieme a parte di quelli originali; nel secondo, invece, i dati saranno unicamente quelli generati tramite algoritmi, senza mantenimento di alcuna delle iniziali informazioni identificative.
La differenza principale rispetto alle tradizionali tecniche di anonimizzazione dei dati risiede nel fatto che i dati sintetici rimangono riservati e, a determinate circostanze, non identificativi in ragione dell’aggiunta di informazioni statisticamente analoghe, piuttosto che attraverso l’eliminazione dei cosiddetti identificatori diretti o indiretti5.

Le modalità con cui è possibile produrre questo tipo di dati sono diverse, ma il principio di fondo consiste nel sostituire tutti o solo alcuni dei valori del dataset originale, tramite specifici algoritmi e processi di machine learning (in particolare, i GANGenerative Adversarial Network6), con altri ricavati da distribuzioni e strutture statisticamente equivalenti, in modo da creare record del tutto nuovi con il minor numero possibile di relazioni potenzialmente identificative con gli originali.

Tra i vari vantaggi derivanti dalla sintetizzazione dei dati, è opportuno sottolineare che:

  • Pur mantenendo le stesse caratteristiche statistiche dei dati originali, i dati sintetici possono essere ampliati per imputare (i.e. sostituire i valori mancanti con altri sostitutivi) e raffinare i dati reali. Si possono così colmare lacune, correggere distribuzioni di valori distorte o rimuovere valori spuri nei dati originali, risolvendo problemi di raccolta, formattazione o normalizzazione, assolutamente frequenti nei dati clinici, così producendo dati effettivamente più utili e realistici di quelli originali;
  • Il rischio effettivo di re-identificazione può essere efficacemente quantificato rispetto ai dati originali grazie a specifiche tecniche e quindi modulato, nel processo di generazione, sulla base dell’uso e della distribuzione previsti7: la sintetizzazione dei dati unita all’uso della differential privacy, infatti, consente di generare insiemi di dati che non “contengono alcuna informazione che possa essere ricondotta a individui specifici nei dati originali”.

La generazione di cartelle cliniche sintetiche basate su dati tratti dal mondo reale può, ad esempio, rappresentare una fondamentale soluzione alternativa per fornire ai ricercatori operanti nel settore del machine learning i dati di cui gli stessi hanno bisogno per poter sviluppare soluzioni algoritmiche adeguate agli obiettivi di volta in volta identificati, evitando di condividere informazioni sensibili sui pazienti e garantendo la piena protezione dei dati. Inoltre, i dati sintetici possono fornire ai ricercatori set di dati tailorizzati in funzione delle loro specifiche esigenze, ma comunque basati su informazioni reali (ad esempio, possono essere creati diversi tipi di dati sintetici appositamente per la previsione dei ricoveri in terapia intensiva, per le sperimentazioni cliniche o per la stima degli effetti dei trattamenti).

Del resto, la qualità di dati biomedici è tradizionalmente bassa, a causa della complessità e del costo della misurazione dei parametri biologici e clinici. Ciò porta ai seguenti problemi: i sistemi di intelligenza artificiale, se allenati su dati di scarsa qualità, faticano a raggiungere adeguati livelli di precisione e, quand’anche riescano a garantirla, rischiano di incorporare bias sistemici che influenzano il loro comportamento in modo dannoso o non etico.

In casi simili, i dati sintetici offrono una chiave per estendere le popolazioni sottorappresentate e riequilibrare gli output, oltre che per influenzare il comportamento dei sistemi di IA in modi che nemmeno il più esaustivo dei dataset di training sarebbe in grado di fare, come nel caso di disuguaglianze sociali che, essendo fattuali e quindi inevitabili, sono riflesse anche nei più accurati spaccati della popolazione generale e che, se non corrette, vengono inevitabilmente reiterate dai sistemi di intelligenza artificiale.

In conclusione, sebbene sia necessario svolgere ulteriori attente analisi sui possibili limiti connessi ai dati sintetici, pare indubbio che questa tecnologia rappresenti, ad oggi, una delle più promettenti per garantire ed anzi rafforzare i livelli di tutela della privacy negli anni a venire.

  1. Nel ‘Documento di risposta alla richiesta di chiarimenti della Commissione europea sulla coerente applicazione del GDPR, relativamente alla ricerca sanitaria’, pubblicato il 2 febbraio 2021, lo European Data Protection Board ha rilevato che “nelle legislazioni dei diversi Stati membri si possono riscontrare notevoli differenze tra le basi giuridiche per il trattamento di dati sanitari a fini di ricerca scientifica”, quando invece sarebbe raccomandabile “utilizzare la stessa base giuridica quando si conduce un progetto di ricerca sanitaria in più Stati membri”. ↩︎
  2. Come sottolineato di recente dall’EDPS, “si sono diffuse alcune concezioni fuorvianti rispetto al tema dell’anonimizzazione↩︎
  3. L’Opinion 05/2014 dell’ex Gruppo di lavoro Articolo 29 sulle ‘tecniche di anonimizzazione’ – che rappresenta ancora oggi la principale guida normativa in UE in materia di anonimizzazione – precisa che quando un titolare del trattamento “non cancella i dati originali (identificabili) a livello di evento, e trasmette poi parte di questo insieme di dati (ad esempio, dopo l’eliminazione o il mascheramento dei dati identificabili), l’insieme di dati risultante contiene ancora dati personali”. La soglia di cancellazione fissata e richiesta in alcuni Stati membri è troppo alta, oltre che irragionevole, rispetto al criterio della “ragionevole probabilità di reidentificazione” di cui al considerando 26 del GDPR (cfr. ex multis, Finck M.; Pallas F., They who must not be identified-distinguishing personal from non-personal data under the GDPR, International Data Privacy Law, 2020, Vol. 10, N. 1). ↩︎
  4. L’EDPS ha incluso i dati sintetici nell’ultimo report “Tech Sonar” 2021/2022 (disponibile qui), finalizzato ad analizzare le tendenze tecnologiche emergenti di maggior rilievo. Inoltre, nella proposta di Artificial Intelligence Act è stato inserito un riferimento specifico ai dati sintetici (articolo 54, paragrafo 1, lettera b), in relazione al riutilizzo dei dati per lo sviluppo di “sistemi di intelligenza artificiale nell’interesse pubblico”). ↩︎
  5.  Bellovin, S.M., Dutta, P.K., Reitinger, N., Privacy and synthetic datasets, 2019, Stanford Technology Law Review 22 (1): 2-52. ↩︎
  6. I GAN utilizzano solitamente due modelli che interagiscono tra di loro: il ‘Generatore’ apprende come captare e ricreare la distribuzione dei dati, mentre il ‘Discriminatore’ stima la probabilità che un campione generato appartenga alla distribuzione originale dei dati o che invece sia stato creato dal Generatore, determinando così – in breve – se i dati sono falsi o meno. ↩︎
  7. Morley-Fletcher, E., ‘New Solutions to Biomedical Data Sharing: Secure Computation and Synthetic Data’, in Personalized medicine in the making: philosophical perspectives from biology to healthcare, Beneduce, C., Bertolaso, M., Springer (2021), 173-189. ↩︎

Hai un articolo nel cassetto? Legal Tech Magazine è sempre alla ricerca di nuove voci attraverso cui raccontare l’evoluzione del settore. Puoi sottoporci la tua proposta attraverso il seguente form: avremo cura di leggerla e di valutarne la pubblicazione.

Non solo un Magazine, ma anche una Mappa, un Forum, un Report e un’Academy. Se ti interessano i progetti di Legal Tech Italy e desideri ricevere aggiornamenti sulle sue iniziative presenti e future, iscriviti alla newsletter e non perderti nessuna novità.