Il dato che vorrei…

odi-1-text-image_large

Come sapete in archeoarte.it stiamo riusando tutti gli open data disponibili (quando sono effettivamente riusabili) sui beni culturali e turistici pubblicati in Italia. Nella elaborazione dei dataset esistenti abbiamo trovato una serie di problemi di dettaglio e/o organici sulla base dei quali abbiamo formulato delle indicazioni che condividiamo per contribuire al miglioramento del processo di produzione degli open data.

I dataset dovrebbero essere prodotti a partire da informazioni di qualità

Il processo di produzione degli open data parte dai dati che una Pubblica Amministrazione mette a disposizione deve partire da informazioni di qualità, ovvero informazioni corrette e in contraddizione fra loro. Ad esempio i dati di geolocalizzazione devono essere corretti.

I dataset dovrebbero almeno contenere un insieme di informazioni significative per il riuso

Per quanto riguarda gli open data sui beni culturali andiamo a cercare dei dataset che contengano almeno queste informazioni per ogni bene, quando mancano il dato è poco appetibile:

– nome del bene

– categoria

– geolocalizzazione del bene/indirizzo

– immagine

Abbiamo trovato dei dataset ad esempio con solo nome del bene e immagine che evidentemente sono poco riusabili.

Più PA che pubblicano lo stesso tipo di dataset dovrebbero usare gli stessi metadati e dovrebbero scegliere sistemi di metadati standard quando disponibili

La regola numero uno è ovviamente aderire agli standard di rappresentazione quando siano presenti: ad esempio il General Transit Feed Specification (GTFS) definisce un formato comune per gli orari dei trasporti pubblici e le relative informazioni geografiche.

Per i casi in cui non esistono sistemi di metadati standard, ho posto la questione all’OGP (Open Government Partnership) e rivolto una istanza all’AGID proponendo che la PA usi una piattaforma condivisa di progettazione e scambio dei metadati per tipo di dataset: metadati.gov.it.

Nel caso di archeoarte sarebbe bello ad esempio che il nome di ogni bene culturale fosse identificato da dc:title e la descrizione da dc:description e che tutte le PA adottassero questo schema.

Scegliere formati di pubblicazione autoconsistenti

Volendo pubblicare un dato riusabile è necessario almeno partire da formati aperti (3 stelle), quindi almeno csv, xml e json. I formati migliori sono xml e json perchè ogni informazione è collegata al suo significato (metadato), quindi è autoconsistente, mentre i csv sono i più difficili da rielaborare perché essendo “comma separated values” le informazioni si distinguono una dall’altra dalla posizione nella riga e basta uno sfasamento per generare l’errore di interpretazione.

Due parole sull’uso dei formati del semantic web

Sicuramente la pubblicazione di open data attraverso le ontologie e i formati del semantic web da un valore aggiunto perchè con un dataset si può descrivere un mondo articolato, ma spesso l’interpretazione di questi dati richiede l’uso di librerie software complesse per l’estrazione del dato come ad es. usare repository tipo triple-store, linguaggi tipo SPARQL.

I dataset devono avere encoding UTF-8

Se i dati non sono in formato UTF-8 non si possono rielaborare con le librerie software esistenti.

I dataset devono essere “testati” prima della pubblicazione

I dataset sono dei prodotti software quindi devono essere testati prima di essere pubblicati per verificare l’encoding, la leggibilità con librerie software standard, la presenza di sfasamenti nei csv ecc…

CC BY-SA 4.0 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Pubblicato in News

Rispondi