Alcune note sul nuovo dati.gov.it, il portale nazionale dei dati aperti della PA

Tweet about this on TwitterShare on FacebookShare on LinkedInEmail this to someone

Intro

Da pochi giorni – dopo più di un anno di stop – il portale dei “dati aperti della pubblica amministrazione” ha ripreso a fare harvesting dai siti della PA che pubblicano open data e si è anche rinnovato.

A seguire alcune note per l’Agenzia per l’Italia Digitale (AgID).

Licenze

Un portale dei dati aperti dovrebbe contenere soltanto dati con licenze aperte, mentre attualmente ci sono dataset con clausola “Non commerciale”. A nostro giudizio questi dati andrebbero rimossi dal portale, a meno che non vengano rilasciati sotto licenze open dai rispettivi titolari.

DCAT-AP_IT

  • si suggerisce di pubblicare un dataset con la lista di tutti gli endpoint DCAT-AP_IT usati da dati.gov.it per validare i cataloghi delle PA sottoposti ad harvesting;
  • sarebbe interessante estendere il profilo, dando la possibilità di inserire nei metadati di ogni risorsa anche proprietà come l’encoding dei caratteri, o il separatore dei campi (vedi CSV). Senza queste informazioni la lettura automatica da parte delle macchine è molto difficile, così come per gli esseri umani. Un riferimento utile è quello del Tabular Data Resource ;
  • sarebbe preziosissimo, e in un certo senso sarebbe dovuto, che le API potessero restituire per ogni PA anche il codice iPA presente nell’“Indice delle Pubbliche Amministrazioni”;
  • sarebbe molto utile mettere a disposizione di tutte le PA italiane un validatore DCAT-AP_IT, o in alternativa anche il puntamento a uno o più validatori esistenti;
  • quali sono gli endpoint delle descrizioni secondo DCAT-AP_IT dei dataset pubblicati nella piattaforma dati.gov.it?
  • sarebbe molto utile mettere a disposizione un endpoint DCAT-AP_IT valido – un “ciao mondo” – da usare come esempio.

Statistiche sull’utilizzo dei dati

Sarebbe utile pubblicare periodicamente un dataset con i dati di utilizzo dei singoli dataset esposti. Lo fa già il portale OpenData di Regione Lombardia (il dataset è disponibile qui)

Indicizzazione sui maggiori Search engine

Nessuna pagina di dati.gov.it è al momento indicizzata: si veda ad esempio:

L’URL di base non è cambiato ed in ogni caso è strano che non sia presente alcuna pagina, nemmeno quelle del sito precedente.

Sarebbe bene che (almeno) tutte le pagine dei dataset fossero “indicizzabili”, in modo da rendere ogni singolo dataset ricercabile.

Per ogni portale *.gov.it sarebbe corretto fornire la Sitemap, sia navigabile dalle persone sia in XML (anche per ragioni SEO).

Pagina sviluppatori

Nella pagina degli sviluppatori si fa riferimento alle API di CKAN, ma alcune chiamate previste in CKAN – come api/3/action/organization_list – non sembrano disponibili. Questo potrebbe dipendere dal fatto che forse non tutte le chiamate CKAN sono esposte anche in modo analogo in DKAN.

In questa pagina pertanto dovrebbero essere elencate le richieste attualmente abilitate via API su dati.gov.it. Altrimenti il riferimento generico alle API di CKAN potrebbe essere fuorviante.

Ad esempio queste chiamate “CKAN” restituiscono un “not found”:

Luca Bonavita, con cui ci siamo confrontati per questo testo (grazie mille) ha scritto un lungo report sulla cosa: https://github.com/mindrones/dati_gov_it/blob/master/doc/enpoints_status.md

Endpoint preziosi – ma non attivi – sono quelli che forniscono le ultime attività; questi permetterebbero di scaricare periodicamente solo gli aggiornamenti più recenti ai metadati dei datasets – invece dei metadati completi – ed eviterebbero accessi più gravosi ai vostri server e la necessità per gli sviluppatori di scrivere strumenti per ottenere gli aggiornamenti temporali.

Nella pagina degli sviluppatori andrebbero altresì inseriti gli URL ai repository github relativi a dati.gov.it e, per comodità, un riferimento alla documentazione DCAT-AP_IT (al momento citata in Fare Open Data) per permettere ai non addetti ai lavori di scoprire rapidamente lo schema dei datasets.

Sarebbe poi estremamente utile avere un catalogo degli strumenti centralizzato (es. validatore DCAT-AP, configurazioni CKAN, indicazioni su come costruire servizi REST, ecc…), un repository condiviso in cui le PPAA più grandi mettono a disposizione i loro strumenti.

Dataset dei dataset

Sarebbe molto comodo rendere disponibile il dataset dei dataset. Un file statico (da aggiornare in modo periodico, ad esempio giornalmente) con l’elenco di tutto quanto esposto nel catalogo (dataset, risorse, organizzazioni, ecc.).

MIME type delle immagini delle organizzazioni

Alle organizzazioni censite è associato l’URL un’immagine, ma il MIME type restituito non sembra corretto.
Come esempio questo URL http://www.dati.gov.it/sites/default/files/pbz-organization-logo-horizontal di questo dataset.

Risorse non raggiungibili

L’insieme dei package esposto è quello di questo elenco. In un test fatto il 12 marzo 2017, 883 di questi non risultano raggiungibili. Qui i dettagli.

Feed RSS

Sarebbe molto importante esporre il feed RSS dei dati pubblicati e dargli quindi visibilità.

Indicare chiaramente i vari reparti “digitali”

http://gov.it/ ridireziona a http://www.gov.it che non esiste.

Per orientarsi tra i vari reparti digitali, sarebbe utile una pagina che mostri i vari sottodomini (*.gov.it), o che gov.it ridirezionasse a http://www.governo.it/ dove c’è in effetti la sezione “Siti di interesse“ in basso, ma attualmente riporta solo i links a http://soldipubblici.gov.it/it/home e http://italiasicura.governo.it/site/home.html.

Issue tracking system e dialogo multidirezionale

Note come quelle di sopra dovrebbero poter essere inviate, separate tra loro, tramite un sistema di issue tracking. Esiste già uno spazio di questo tipo? È possibile usare uno di questi repository github?
Se no, l’invito è quello di creare uno spazio dedicato, che sarebbe uno strumento di dialogo multidirezionale tra i tutti i portatori di interesse del portale nazionale.

Sarebbe altresì interessante rendere disponibile un form per “richiedere dati”. Questo potrebbe essere uno strumento per creare il “paniere dei dati prioritari costruito dal basso”.

Un altro form – per PMI, start up e imprese, singoli cittadini, associazioni, amministrazioni (centrali e locali), mondo della ricerca, ecc. – sarebbe da dedicare alle segnalazioni di “esperienze di riuso” di dati aperti, per la creazione di un catalogo articolato di riuso dei dati, in modo che possa emergere la vivacità delle esperienze in atto in tutto il territorio nazionale.
Abbiamo letto qui che si tratta di qualcosa di previsto e rimaniamo quindi in attesa (ne approfittiamo anche per segnalare due errori nella stessa pagina, qui e qui).

Sui mesi di stop

Sarebbe opportuno che l’Agenzia per l’Italia Digitale raccontasse delle cause di questo lungo “fermo macchine”, peraltro non compatibile con un sistema di “dati pubblici”.

In conclusione

Abbiamo scritto queste note (con il contributo di Luca Bonavita) per l’interesse che abbiamo sul tema dei dati pubblici e per dare un contributo alla comunità open data.

NdR: pubblicheremo questo testo sul blog di onData e lo invieremo per email ad AgID () e alla mailing list pubblica del “Team Digitale della Presidenza del Consiglio”.

Redazione Ondata

Redazione Ondata

Associazione per la Promozione della Trasparenza e della cultura dei dati attraverso le competenze digitali e il giornalismo investigativo.

Se ti piace quello che facciamo, sostienici con una donazione!
Redazione Ondata
Tweet about this on TwitterShare on FacebookShare on LinkedInEmail this to someone

One thought on “Alcune note sul nuovo dati.gov.it, il portale nazionale dei dati aperti della PA

  1. Ciao a tutti, ad oggi molti link ancora non sono accessibili, come mai? Secondo me dovrebbero renderli funzionali e pubblici anche per chi si occupa di ricerche di mercato. Interessante per trasparenza il link su soldipubblici.gov.it, molti di noi non ne sono a conoscenza. A presto!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *