Quale futuro per il web semantico? Esperienze e riflessioni dal mondo MAB (musei, archivi, biblioteche). Spunti da un Seminario internazionale

Venerdì 12 aprile 2024 presso la Sala Napoleonica dell’Università degli studi di Milano si è tenuto il seminario internazionale organizzato da Agnese Bezzera, Simona Turbanti e Fabio Venuda dal titolo Quale futuro per il web semantico? Esperienze e riflessioni dal mondo MAB (musei, archivi, biblioteche). Il seminario ha avuto inizio con i saluti istituzionali da parte di Fabio Venuda, coordinatore del master di secondo livello in Digital humanities organizzato dall’Università degli studi di Milano e membro della Società italiana di scienze bibliografiche e biblioteconomiche (SISBB), di Federico Valacchi, presidente dell’Associazione italiana docenti universitari scienze archivistiche (AIDUSA), di Roberta Moro, vicepresidente della Sezione Lombardia dell’Associazione italiana biblioteche (AIB) e Taddeo Molino Lova, consigliere direttivo dell’Associazione nazionale archivistica italiana (ANAI).

A seguito dei saluti, Simona Turbanti, moderatrice del seminario e docente dei corsi di Digital humanities e Archivistica informatica presso l’Università degli studi di Milano, ha introdotto il tema cardine del seminario, ossia il Web semantico. Questa estensione del World Wide Web ha l’obiettivo di rendere più funzionale la rete sia nel rapporto uomo-macchina sia nel rapporto macchina-macchina, etichettando ogni informazione secondo linee guida specifiche, o meglio secondo ontologie specifiche, per ogni dominio o ambito del sapere. Tuttavia, dopo il lancio a seguito dell’articolo pubblicato da Tim Berners-Lee nel 2001, lo sviluppo del web semantico ha subìto un rallentamento; a partire dal 2015, su iniziativa di aziende come Apple, Amazon e Google, si è iniziato a integrare informazioni strutturate nelle loro AI, affinché queste rispondessero in maniera sempre più pertinente agli utenti, fino a prevederne le richieste. Il punto focale del seminario è stato dunque comprendere come si relazioneranno le AI e il web semantico nel prossimo futuro e quanto si influenzeranno reciprocamente, soprattutto nell’ambito MAB (musei, archivi, biblioteche), da sempre contesto privilegiato per quanto concerne la categorizzazione e strutturazione delle informazioni.

Il primo intervento del seminario, dal titolo Enhancing semantic interoperability of bibliographic data: a reference ontology to structure, interlink and validate bibliographic ontologies on the semantic web, è stato tenuto da Helena Simões Patrício della Biblioteca nacional de Portugal. Presentando lo stato dell’arte in ambito bibliotecario, la relatrice ha messo in evidenza, da una parte, i buoni livelli di interoperabilità tecnica raggiunti grazie alle buone pratiche dei dati collegati – linked-data, che, se sono aperti, sono definiti linked open data, LOD-, dall’altra, i problemi di tipo qualitativo sul piano semantico. A fronte, infatti, dei numerosi progressi ottenuti negli ultimi anni, sono ancora molti i limiti del web semantico, specie per quanto riguarda il trattamento di dati bibliografici preesistenti. 

Le criticità principali che riguardano le ontologie bibliografiche finora in uso sono tre: la mancanza di framework concettuali comuni; la scarsa compatibilità tra le ontologie, spesso non orientate all’interoperabilità; infine, le problematicità linguistico-sintattiche interne al web semantico. Lo studio e la realizzazione di una nuova reference ontology da parte di Helena Simões Patrício ha lo scopo di ovviare a queste carenze. A partire dal caso relativo all’opera Os Lusiadas, Simões Patrício ha spiegato come il ricorso a questa nuova reference ontology, costruita durante la sua ricerca di dottorato, insieme all’uso dello standard SHACL, permetta di risolvere almeno le problematiche relative alle omonimie e alle sovrapposizioni di dati bibliografici. Il modello di struttura bibliografica BIBFRAME (Bibliographic framework initiative), realizzato dalla Library of Congress, IFLA Library reference model (IFLA LRM) e Resource description and access (RDA), adottati dalla Biblioteca nazionale di Spagna, si prestano, infatti, a problemi di questo tipo che la reference ontology realizzata potrebbe contribuire a risolvere. Come già anticipato, questi modelli, concepiti in passato per un ambiente diverso dal web odierno (e futuro), e la scarsa interoperabilità tra vocabolari diversi costituiscono un limite per lo sviluppo del web semantico.

Il caso de Os Lusiadas è emblematico. In IFLA LRM ogni opera ha quattro entità (work; expression; manifestation item), mentre in BIBFRAME le entità sono solo tre (work; instance/manifestation; item). Il fatto che in LRM l’opera appaia come work con due differenti expressions, mentre in BIBFRAME work e expression coincidano, rende difficile la distinzione tra l’opera originaria portoghese e le espressioni successive in spagnolo. Per questo motivo la reference ontology, introducendo le “superclassi” obra ed expressão e impostando nuovi rapporti gerarchici di relazione, è utile per disambiguare e rendere univoche le associazioni: come ogni reference ontology, anche questa non si propone di sostituire gli altri sistemi ma piuttosto di mediare e fungere da ponte tra i modelli della Biblioteca nazionale di Spagna e della Library of Congress.

L’esperienza di Simões Patrício dimostra quindi come, al netto dei limiti attuali, il web semantico possa essere potenziato sia quantitativamente sia dal punto di vista qualitativo.

Nel secondo intervento (Il museo per tutti: dai LOD alla personalizzazione dei contenuti per i diversi tipi di pubblico), tenuto da Iolanda Rolfo del Museo Galileo di Firenze ci si è focalizzati sui Linked open data in ambito museale. Il Museo Galileo, fondato nel 1927, ospita oggi una delle collezioni più importanti al mondo di strumenti scientifici ed è dotato di una biblioteca che conserva oltre trecento mila opere, molte delle quali risalenti al XVIII e XIX secolo. Il museo ha sviluppato un laboratorio multimediale interno per la realizzazione di progetti digitali, tra i quali spicca la messa a punto di un OPAC del Museo in formato MARC21, che contiene migliaia di record di opere, tra cui manoscritti, mappe e altre risorse, liberamente accessibili in rete attraverso la biblioteca digitale.

Rolfo ha evidenziato come il Museo Galileo si sia fatto promotore di un’importante riflessione sull’open science, definito dall’UNESCO come «scienza inclusiva di tutte le discipline pratiche accademiche». Questa visione mira a superare le barriere tra il mondo accademico e il pubblico, trasformando il museo in uno spazio aperto per il confronto e la condivisione del sapere; essa non si limita alla semplice disponibilità dei dati ma richiede una mediazione umana per renderli utili e comprensibili: il web semantico e l’intelligenza artificiale possono giocare un ruolo fondamentale in questo processo, garantendo una personalizzazione dei contenuti per i visitatori e facilitando la preparazione alla visita. Per questo motivo l’open science è considerata una soluzione per sostenere la ricerca, favorire la comprensione e promuovere l’inclusione, trasformando il museo in un luogo accessibile a tutti.

Un altro progetto ascrivibile al campo delle DH presentato da Rolfo è quello della LeonardoThek@, un sistema di consultazione del Codice Atlantico di Leonardo da Vinci che permette agli studiosi di navigare facilmente all’interno deò corpus di opere, fornendo descrizioni dettagliate delle singole carte, note critiche, riferimenti bibliografici e documenti correlati. Rolfo ha poi menzionato il progetto di digitalizzazione del Mappamondo di Fra Mauro, un’opera cartografica del 1450 conservata nella Biblioteca nazionale Marciana di Venezia: il laboratorio multimediale del Museo ha creato un modello 3D del Mappamondo e un centinaio di video a corredo che spiegano dettagliatamente e  in diverse lingue le informazioni contenute in questa carta geografica. Infine il Museo Galileo ha avviato un progetto pilota per verificare i dati degli oggetti della sua collezione utilizzando linked open data e l’ontologia ArCO, la quale dialoga con il catalogo nazionale dei beni culturali; in questo modo sono stati facilitati l’aggiornamento automatico dei database e la pubblicazione online, migliorando la qualità e l’accessibilità delle informazioni.

L’intervento di Iolanda Rolfo ha dunque offerto uno sguardo approfondito sulle innovazioni e le sfide affrontate dagli esperti del Museo Galileo. Attraverso questi progetti innovativi, si dimostra l’importanza delle Digital humanities in ambito museale che contribuiscono a rendere la storia della scienza più accessibile ad un ampio pubblico.

Laura Brazzo, vicedirettrice della Fondazione Centro di documentazione ebraica contemporanea (CDEC), e Federica Brambilla, archivista presso l’Archivio storico Intesa Sanpaolo e docente a contratto presso l’Università degli studi di Milano, hanno presentato la relazione I Linked open data e gli archivi: benefici e criticità. Racconto di un case study.

L’intervento ha avuto l’obiettivo di presentare un caso virtuoso di pubblicazione di banche dati in linked open data. Da oltre un decennio il CDEC ha investito nelle tecnologie del semantic web: già dal 2013 tutti i fondi del CDEC sono stati infatti resi disponibili in formato LOD sul web, mentre, l’anno seguente, è stata pubblicata nello stesso formato la lista delle vittime italiane della Shoah a cui ha fatto seguito, nel 2015, la realizzazione di una biblioteca digitale con dati in RDF. Il bilancio del lavoro svolto in questi primi dieci anni ha evidenziato, tra i benefici, la comodità da parte degli utenti di avere un unico ambiente di lavoro che permette di utilizzare con maggiore libertà i dati granulari contenuti in varie banche dati connesse tra loro. Tra le aspettative, disattese, c’era la speranza di una maggiore interoperabilità e interconnessione con altri istituti, i quali molto spesso non hanno scelto i LOD sia per riservatezza sia per mancanza di risorse. Un’altra criticità riscontrata è legata alla metodologia di ricerca scelta da alcuni storici che si sono dimostrati e si dimostrano poco aperti alla collaborazione interdisciplinare.

Federica Brambilla ha, infine, presentato il progetto EGELI, portato avanti negli ultimi anni dall’Archivio storico Intesa San Paolo con l’obiettivo di studiare e ricostruire le vicende dei sequestri e delle confische dei beni dei cittadini ebrei durante la Seconda guerra mondiale. La prima parte del lavoro è stata per lo più di raccolta manuale dei dati contenuti nei documenti, ricerca che ha coinvolto anche numerosi studenti dell’Università degli studi di Milano all’interno del corso di Storia e documentazione d’impresa del prof. Germano Maifreda. In mancanza di un’apposita ontologia per le numerose informazioni di tipo diverso, l’Archivio storico Intesa San Paolo ha realizzato una nuova ontologia, la DBA Description banking and archives ontology, consultabile sul sito. A seguito della pubblicazione dei dati in modalità LOD, a gennaio 2024 la Fondazione 1563 della Compagnia di San Paolo ha messo a disposizione i dati in loro possesso dei fondi EGELI di Piemonte e Liguria, aprendo così nuove possibilità di studio per storici e cittadini interessati.

I progetti presentati durante il seminario internazionale hanno evidenziato, quindi, i benefici dei linked open data e le grandi potenzialità derivanti dalla loro applicazione ai beni culturali, così come le criticità, prime tra tutte l’alto costo del processo e la necessità di capienti data repository. Gli spunti emersi nel corso dell’incontro sono dunque molti, sintetizzabili in alcune parole chiave proposte, in chiusura, da Simona Turbanti: circolarità, rete, inclusività, risparmio, personalizzazione dei percorsi di ricerca, arricchimento di tutti i soggetti coinvolti.

L’auspicio è che l’impegno di un numero sempre maggiore di istituzioni della memoria per rendere disponibili, in modalità aperta e collegata, i beni culturali presenti nei musei, archivi e biblioteche crei un “effetto domino” con ricadute positive, a diversi livelli, su tutte le istituzioni.

Matteo Drago, Lorenzo Mariani, Matilde Operato, Gianluca Zumbo