Semantic or not semantic (that is the problem)

1-thinking-man-copiaLe PA si stanno chiedendo come sia meglio pubblicare i propri open data usando una rappresentazione di tipo semantic web, magari sotto forma di triple, oppure aderendo a qualche ontologia standard, ma quale ontologia, leggera o pesante?

Ho seguito a questo riguardo un interessante seminario presso l’Istituto Centrale del Catalogo e della Documentazione del Ministero dei beni e delle attività culturali e del turismo che ha rilasciato nel 2016 in formato CSV, un numero rilevante di open data riguardanti le schede di catalogo di opere d’arte e reperti archeologici. Durante il seminario è stata presentato il progetto ZERI & LODE, frutto della collaborazione tra la Fondazione Federico Zeri e un team di informatici ed esperti in digital humanities dell’Università di Bologna. L’obiettivo del progetto è la trasformazione dei dati del catalogo Fototeca Zeri in Linked Open Data, affinché siano accessibili, rintracciabili e (forse) riusabili da utenti e altre applicazioni, secondo le esigenze del nuovo web semantico. In particolare i dati sono stati mappati in CIDOC-CRM unito ad altre ontologie specifiche per esprimere alcuni dettagli non previsti dal CIDOC-CRM.

Notiamo comunque che i dati rilasciati dalla fondazione Zeri non sono riusabili per progetti commerciali, infatti la licenza con cui sono stati rilasciati è  Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), sono quindi disponibili solo per utenti curiosi o per ricercatori.

Il dubbio espresso nel seminario anche dalla direttrice dell’ICCD, Laura Moro, è in quale formato produrre gli open data: nel seminario sono emerse delle risposte parziali, che mi piacerebbe complementare con una opinione da utente, anzi “riusatore”.

I LOD (Linked Open Data) in formato semantic web, sottoforma di triple che si riferiscono a ontologie pesanti più o meno conosciute (ad es. nel caso dei beni culturali l’ontologia CIDOC-CRM) sono utili a tutti coloro che vogliono importare gli open data in repository tipo triple store … ho degli amici a questo punto mi bacchettano perché è un discorso troppo da nerd (https://it.wikipedia.org/wiki/Nerd): per dirla in modo più comprensibile, per usare produttivamente gli open data in questo formato è necessario avere degli strumenti che permettano di importarli ed elaborarli e non tutti sono disponibili, per convenienza o per complessità, a dotarsi di questi strumenti, come il su menzionato triple store, ovvero un database per le triple da interrogare con SPARQL.

D’altra parte i ricercatori della fondazione Zeri hanno fatto notare come l’ontologia da loro usata abbia permesso di esprimere tutte le relazioni e le proprietà dei beni descritti, e che usare altri formati avrebbe danneggiato l’espressività e prodotta una informazione meno completa. Alla fine del loro lavoro di mappatura e elaborazione, hanno pubblicato come open data. Il punto è proprio questo: il formato così complesso è legato a una storia e a una elaborazione propria del progetto di ricerca. I dati della fondazione Zeri sono stati infatti elaborati prima all’interno per fare ricerche sui beni fotografati, sulle immagini e i loro autori, per cercare di scoprire nuove relazioni interne fra i dati. La pubblicazione come open data è un incidente finale, per mettere a disposizione quei dati di altri ricercatori, o di curiosi.

Chi usa quegli open data o è interessato anche alla rappresentazione, oppure deve rimappare i dati verso la propria rappresentazione interna, ad esempio un database, un repository NO-SQL tipicamente usati per la gestione di big data.

La rappresentazione dei dati LOD, nel caso dei dati della fondazione Zeri racconta una storia probabilmente troppo complessa per molti “riusatori” degli open data, in ogni caso ben venga la pubblicazione di questi open data (sarebbe meglio con una licenza più possibilista, magari CC-BY-SA) perché è sicuramente il massimo dell’informazione che la fondazione può esprimere.

Allora cosa devono fare le Pubbliche Amministrazioni? Devono pubblicare i dati in formato web semantico o no? A mio modo di vedere un approccio pragmatico può essere questo: se all’interno della PA quel dato è trattato in un formato web semantico, è sensato che venga anche pubblicato in quella forma. Invece molte PA fanno sforzi aggiuntivi alla mera pubblicazione per definire una ontologia ad hoc, mappare i dati e pubblicarli senza tenere conto che per l’utente degli open data è più complesso rimapparli verso i propri formati interni. Insomma le PA si complicano la vita per complicarla a molti “riusatori” e non credo che tutto questo sia nell’ottica degli open data.

Viceversa le PA dovrebbero fare uno sforzo per la standardizzazione (o adesione a standard esistenti) e la normalizzazione dei campi dei dati che pubblicano. Ad esempio per i dati di trasporto pubblici in corso di pubblicazione è diventato uno standard de facto il formato GTFS (https://developers.google.com/transit/gtfs/): questo è meraviglioso per i “riusatori” di quei dati perché in pratica devono produrre un unico software per poterli importare, il formato è tipo CSV, semplice e efficace, meno articolato di un formato web semantico, ma più utile per molti.

Sarebbe opportuno che anche per altri dati venisse prodotto o adottato uno standard, ho più volte suggerito ad AGID di creare un metadati.gov.it per la raccolta degli standard di pubblicazione degli open data. Oltre al formato standard sarebbe utile la normalizzazione dei valori dei campi ad esempio attraverso la produzione di vocabolari controllati, magari utilizzando SKOS, un sistema di metadati per la creazione di ontologie leggere.

Tornando ai dato sui beni culturali da cui siamo partiti l’ideale sarebbe la produzione e la pubblicazione di uno standard, oltre che degli open data, magari una semplificazione fatta a partire dagli standard di catalogazione usati dall’ICCD (chi meglio di loro?), con i campi normalizzati, basati su vocabolari controllati creati ad hoc o su sistemi di metadati esistenti. Uno standard a disposizione anche di altri attori che pubblicano dati sui beni culturali. I vantaggi di questo approccio sono sia lato PA, che non deve definire ogni volta i formati di pubblicazione, sia da parte dei “riusatori”, che minimizzano gli sforzi di importazione.

E i dati in formato web semantico? Se sono già a disposizione perché fanno parte dei processi e dei progetti interni ben vengano per quei “riusatori” che dispongono di un triple store, e/o di strumenti per analizzare le ontologie, ma solo in questo caso…

CC BY-SA 4.0 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Pubblicato in News

Rispondi