Contare e raccontare: come i dati migliorano con l’uso

Questo articolo racconta una breve storia sulla visualizzazione dei dati per illustrare la forte relazione tra la raccolta dei dati – contare – e la loro visualizzazione – raccontare – e su come questo processo sia influenzato da motivazioni e concetti.

Di seguito sono riportati alcuni esempi che mostrano come la visualizzazione influenzi la percezione dei dati: si può scegliere di amplificare la visibilità di alcune caratteristiche, si possono evidenziare le criticità nei dataset da cui la visualizzazione deriva, così come si può stimolare un feedback da parte dell’utente per migliorare il contenuto e la struttura dei dati.

Contare e raccontare, una storia antica come il mondo.

Già nell’età delle pietra – come si può dedurre dai disegni rupestri ritrovati – le immagini raccontavano una storia con una precisa finalità: spirituale o più profana e pratica, ma sempre legata agli eventi importanti della vita ed importante per la sopravvivenza del gruppo.

L’immagine presenta elementi legati al conteggio ed alla mappatura

Contare, raccontare e sistemare

Anche la gestione del tempo ha portato presto alla invenzione di rappresentazioni sistematiche per contare i giorni del passato e del futuro. Notevole è la varietà di sistemi di organizzazione con archetipi tabellari e circolari.

Scelte

La visualizzazione dei dati spesso è vittima di un conflitto: quello tra il rappresentare un dato ed il rappresentare la propria interpretazione del significato del dato stesso, molto spesso presente nel raccontare o meglio visualizzare dei dati. 

Oggi più che mai il conflitto persiste, come dimostra Karim Douïeb, data scientist, con due mappe del risultato delle elezioni presidenziali (USA 2016).

Quella che è stata la scelta di Trump non è difficile da indovinare…

Quando pero il dato è di supporto a decisioni in situazioni difficili è assolutamente necessario di applicare del rigore nella scelta della visualizzazione e nella cura dei dati, solo dati granulari e non aggregati possono garantire un processo di valutazione indipendente, non esiste scienza senza riproducibilità e riuso di dati. La garanzia della qualità dei dati passa propria per il riuso, un processo che riguardando le mappe ha creato da tempo circoli virtuosi tra creazione e uso dei dati. Un esempio d’eccellenza è OpenStreetMap, con una comunità mondiale di utenti.   

La scienza si racconta

La scelta di una rappresentazione efficace dei dati è sicuramente l’obiettivo che guida chi fa ricerca scientifica, qui di seguito due visualizzazioni famose, create per illustrare il risultato di un’indagine scientifica ad una platea di decisori, purtroppo una visualizzazione efficace non sempre garantisce il successo.

La mappa di John Snow aveva lo scopo di dimostrare che il colera si trasmetteva attraverso l’acqua e non – come era la credenza del tempo – attraverso l’aria. Anche se nella mappa la cosa appare  molto evidente Snow non riusi a convincere i politici dell’epoca. John Snow e Florence Nightingale sono considerati tra i più importanti fondatori di un moderno stile di visualizzazione dei dati.

Oggi abbiamo il dilemma della scelta

Disponiamo di una varietà infinita di strumenti per creare visualizzazioni con dati che declinano i principi arcaici dell’ordinare l’informazione: tabelle e grafici lineari, proporzionali e circolari. 

La visualizzazione è un atto creativo che trasforma i dati

Ogni visualizzazione mente, diceva qualcuno, cosi la rappresentazione non è mai il dato stesso e segue concetti preesistenti e subisce l’effetto delle motivazioni di chi la propone. Una linea guida per dare una visibilità corretta all’informazione potrebbe essere la scelta di rappresentare i dati in un modo più naturale possibile, usare più di una rappresentazione, inserirli in contesto di riferimento.   

Aiutare l’occhio – da machine readable a human readable

Oggi tanti strumenti facilitano l’uso dei dati e forse è proprio li è il nostro vantaggio. Possiamo fare diversi tentativi per mostrare i dati, cercare uno specifico messaggio da trasmettere, una risposta da stimolare o la storia da raccontare ed in tanti possono controllare il racconto se la fonte è pubblica ed accessibile e deve essere proprio cosi. L’attuale pandemia ha acceso un faro sulla necessità di condividere i dati e di creare processi virtuosi di consolidamenti di questi dati che sono alla base di decisioni così importanti.

Anche la zona ‘rossa’ è una visualizzazione

Cè speranza?

Anche grazie anche al lavoro dell’associazione onData nel chiedere dati aperti e utilizzabili – per abilitare il processo virtuoso che permette di migliorare la qualità degli stessi – una parte dei dati sulla situazione  COVID-19 in Italia oggi si trova su GitHub, una piattaforma che permette di pubblicare codice e dati per un processo condiviso di cura. Questo passo coraggioso è stato un grande successo di trasparenza e partecipazione facilmente verificabile nella storia delle quasi 900 issue (segnalazioni) presenti nella pagina dedicata ai dati.

Oltre all’importanza nel pubblicare i dati è importante sottolineare il valore generato dall’apertura creazione di un canale di feedback che viene alimentato dall’uso dei dati stessi e che contribuisce a migliorarne la qualità.

Favorire il riuso dei dati

Se ai dati con riferimento territoriale – ad esempio i nomi di paesi di provenienza del flusso turistico di lingua italiana – 

si aggiungesse una colonna con identificatori standard dei nomi dei paesi secondo lo standard ISO3 e si scegliesse un formato aperto come csv invece del foglio Excel,

una visualizzazione sulla mappa mondiale sarebbe facilmente realizzabile.

-> alla versione interattiva di questa mappa

Qualità del dato

Visualizzando un dataset di più di 600.000 alberi del Comune di Madrid, pubblicato per un contest, vengono alla luce delle criticità come doppie presenze di alberi e diametri di 100 metri e più, con l’uso di immagini satellitari come sfondo gli errori sarebbero facilmente verificabili, queste anomalie si possono individuare ed eliminare facilmente con vari strumenti per la pulizia di dati.

Scoprire utilità ‘nascoste’

Il dataset degli alberi definisce anche la specie dell’albero, elemento utile anche per la visualizzazione in mappa. La distribuzione delle varie specie lungo le strade fa pensare alla situazione delle persone con allergie a primavera. Cambiando il colore dell’informazione in funzione della specie note per creare allergie, si vedono le strade a rischio per le persone con allergia ai pollini.



Aggiungendo alla mappa la rete ciclabile abbiamo una buona base per programmare un percorso “sicuro” in bicicletta.

 

Sorpresa! Il dataset dei numeri civici del Comune di Catania qualifica ogni civico come Residenziale, Commerciale o Industriale. Usando colori diversi ed applicando un’analisi spaziale di “sostegno” alla visualizzazione – in pratica una griglia con il colore prevalente – emerge la destinazione prevalente d’uso della città.

Valutare le informazioni in contesti vari

Un dataset delle strutture ricettive in visualizzazione “grezza” sul territorio della regione Marche, il dataset è pubblicato come Open data dalla Regione Marche.

Gli stessi dati aggregati in una griglia di pochi metri e visualizzati assieme ai beni naturali ed alle criticità presenti sul territorio, il dataset comprende dati publlicati con lo standard WMS dal progetto europeo Copernicus.

-> alla versione interattiva di questa mappa

 

Lo stesso territorio, lo stesso tema – il turismo – ma con i dati estratti tramite scraping da Vincenzo Patruno dal sito AirBNB, sono dati “reali” ma non ufficiali, molto utili a comprendere una situazione turistica in forte cambiamento.

Dall’insieme di questi dati l’impatto sul territorio diventa visibile.

-> alla versione interattiva di questa mappa

 

Infine due esempi per verificare la qualità di dati pubblici.

 

Guenter Richter
Guenter Richter

Latest posts by Guenter Richter (see all)

    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

    Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.