Visualizzazione dei dati

Che cos’è e perché la utilizziamo

Quindi, che cos’è la visualizzazione dei dati?

La visualizzazione dei dati si riferisce a tecniche utilizzate per comunicare insight dai dati attraverso una rappresentazione visiva. Il suo obiettivo principale è riassumere grandi dataset in grafiche visive per comprendere facilmente le relazioni complesse all’interno dei dati. Viene spesso utilizzata in modo intercambiabile con termini quali informazioni visive, grafici di statistiche e visualizzazione di informazioni.

È uno dei passaggi del processo della scienza dei dati sviluppato da Joe Blitzstein, ovvero il quadro per approcciare le attività della scienza dei dati. Dopo avere raccolto, elaborato e modellato i dati, è necessario visualizzare le relazioni, in modo da trarre una conclusione.

È anche un componente della più ampia disciplina della data presentation architecture (DPA), che cerca di identificare, localizzare, manipolare, formattare e presentare i dati nel modo più efficiente.

Perché è importante?

Secondo il Forum economico mondiale, il mondo produce 2,5 quintilioni di byte di dati ogni giorno e il 90% di tutti i dati sono stati creati negli ultimi due anni. Con una quantità così grande di dati, è diventato sempre più difficile gestirli e dare loro un senso. Sarebbe impossibile per qualsiasi individuo guardare dentro ai dati riga per riga e vedere schemi distinti e fare osservazioni. La proliferazione dei dati può essere gestita quale parte del processo della scienza dei dati, che include la visualizzazione dei dati.


Insight migliore

La visualizzazione dei dati può fornire insight impossibili per le statistiche descrittive tradizionali. Un esempio perfetto è il Quartetto di Anscombe, creato da Francis Anscombe nel 1973. L’illustrazione contiene quattro diversi dataset con scostamento, significato, correlazione tra le coordinate X e Y e linee di regressione lineare pressoché identici. Tuttavia, gli schemi sono chiaramente differenti quando vengono riprodotti su un grafico. Di seguito, puoi osservare un modello di regressione lineare che si applica ai grafici uno e tre, ma per il grafico due sarebbe ideale un modello di regressione polinomiale. Questa illustrazione evidenzia perché è importante visualizzare i dati e non solo contare sulle statistiche descrittive.

anscombe’s quartet

Processo decisionale più veloce

Le aziende che possono ottenere e agire rapidamente sui propri dati saranno più competitive sul mercato, poiché possono prendere decisioni informate in tempi più brevi rispetto ai concorrenti. La velocità è la chiave, e la visualizzazione dei dati aiuta a comprendere grandi quantità di dati attraverso l’applicazione di rappresentazioni visive ai dati. Questo livello di visualizzazione solitamente si trova in cima al data warehouse o al data lake e permette agli utenti di scoprire ed esplorare i dati in modo autonomo. Questo non solo stimola la creatività ma riduce la necessità di IT di destinare risorse per la continua creazione di nuovi modelli.

Ad esempio, prendiamo un analista di marketing che lavora su 20 diverse piattaforme di annunci e sistemi interni e che deve comprendere rapidamente l’efficacia delle campagne di marketing. Per farlo manualmente, dovrebbe andare in ogni sistema, elaborare un report, confrontare i dati e poi provvedere all’analisi in Excel. L’analista dovrebbe poi guardare uno sciame di parametri e attributi e avrebbe difficoltà a trarre delle conclusioni. Tuttavia, le piattaforme moderne di business intelligence (BI) connetteranno automaticamente le fonti di dati e il livello nelle visualizzazioni dei dati, in modo che l’analista possa frammentare i dati con facilità, arrivando facilmente a conclusioni riguardo alle performance del marketing.


Esempio di base

Ipotizziamo che tu sia un rivenditore e voglia confrontare le vendite delle giacche a quelle delle calze nel corso dell’anno passato. Esiste più di un modo per presentare i dati e le tabelle costituiscono il modo più comune. Ecco come ciò apparirebbe:

La tabella di cui sopra svolge un eccellente lavoro nel mostrare informazioni precise, se si ha questa necessità. Tuttavia, è difficile vedere istantaneamente le tendenze e la storia raccontate dalle date.

Ora, ecco i dati visualizzati in un grafico a linee:

2 line graphs

Dalla visualizzazione, appare immediatamente ovvio che le vendite di calze rimangono costanti, con piccoli picchi a dicembre e giugno. D’altra parte, le vendite di giacche sono più stagionali e raggiungono il loro punto più basso a luglio. Poi aumentano e il loro picco si verifica a dicembre, prima di diminuire mensilmente fino quasi in autunno. Puoi ottenere la medesima storia guardando il grafico, ma richiederebbe molto più tempo. Immagina di provare a dare un senso a una tabella con migliaia di dati analitici.

La scienza dietro alla visualizzazione dei dati

Elaborazione delle informazioni

Per comprendere la scienza dietro alla visualizzazione dei dati, dobbiamo prima parlare di come gli esseri umani raccolgono ed elaborano le informazioni. In collaborazione con Amos Tversky, Daniel Kahn ha svolto una ricerca approfondita su come formiamo i nostri pensieri ed è arrivato alla conclusione che utilizziamo uno di questi due metodi:


System I

descrive l’elaborazione del pensiero rapida, automatica e inconscia. Utilizziamo questo metodo abbastanza frequentemente nelle nostre vite quotidiane e possiamo fare le seguenti:

  • Leggere il testo su un cartello
  • Determinare la fonte di un suono
  • Risolvere 1+1
  • Riconoscere la differenza tra i colori
  • Guidare una bicicletta

System II

descrive un pensiero lento, logico, poco frequente e calcolatore e include:

  • Distinguere la differenza di significato in segnali multipli posti di fianco
  • Recitare il proprio numero di telefono
  • Comprendere spunti sociali complessi
  • Risolvere 23×21

Con questi due sistemi di pensiero definiti, Kahn spiega perché gli esseri umani hanno difficoltà a pensare in termini di statistiche. Egli afferma che il Sistema I di pensiero si basa su dati euristici ed errori per gestire il volume di stimoli che incontriamo ogni giorno. Un esempio di dati euristici al lavoro è un giudice che vede un caso solo in termini di casi storici, invece di cogliere le sfumature e le differenze uniche del nuovo caso. Inoltre, ha definito i seguenti errori:

  • Punto di riferimento

  • Una tendenza a farsi influenzare da numeri irrilevanti. Ad esempio, questo errore viene manipolato dai negoziatori abili che offrono un prezzo inferiore (riferimento) di quello che si aspettano di ottenere, per poi determinare un leggero aumento al di sopra del riferimento.

  • Disponibilità

  • La frequenza con cui gli eventi si verificano nella nostra mente non riflette accuratamente le probabilità effettive. Si tratta di una scorciatoia mentale, ipotizzando che gli eventi che possono essere ricordati abbiano una maggiore probabilità di verificarsi.

  • Sostituzione

  • Si riferisce alla nostra tendenza a sostituire domande difficili con domande più semplici. Questo errore è noto anche come errore di congiunzione o “Problema di Linda”. Questo esempio pone il quesito:

    Linda ha 31 anni, è single, diretta e molto viva. Si è laureata in filosofia. Quando era una studentessa, era molto preoccupata riguardo alle problematiche di discriminazione e giustizia sociale, e partecipava inoltre alle dimostrazioni contro il nucleare.

    Che cos’è più probabile?

    1) Linda è un operatore bancario

    2) Linda è un operatore bancario ed è attiva nel movimento femminista

    La maggior parte dei partecipanti al caso ha scelto la seconda opzione, anche se viola la legge della probabilità. Nelle loro menti, la seconda opzione era più rappresentativa di Linda, quindi hanno utilizzato il principio di sostituzione per rispondere alla domanda.

  • Ottimismo e avversione alla perdita

  • Kahn riteneva che questo potesse essere il nostro errore più significativo. Ottimismo e avversione alla perdita ci dà l’illusione del controllo, perché tendiamo ad affrontare solo la possibilità di risultati noti che sono stati osservati. Spesso non teniamo conto degli ignoti conosciuti oppure di risultati completamente non previsti. Il nostro ignorare questa complessità spiega perché utilizziamo un campione di piccole dimensioni per produrre ipotesi molto forti riguardo ai risultati futuri.

  • Framing

  • Framing si riferisce al contesto in cui le scelte vengono presentate. Ad esempio, più soggetti si sono dimostrati più inclini a sottoporsi a una chirurgia se contestualizzata con un tasso di sopravvivenza del 90% piuttosto che con una mortalità del 10%.

  • Costo irrecuperabile

  • Questo errore viene spesso riscontrato nel mondo degli investimenti, quando le persone continuano a investire in una risorsa sotto rendimento con scarse prospettive invece di tirarsi fuori dall’investimento e scegliere una risorsa con prospettiva più favorevole.

Con i Sistemi I e II, unitamente agli errori e ai dati euristici, nella mente, dovremmo cercare di garantire che i dati vengano presentati in un modo che comunichi correttamente al nostro processo di pensiero Sistema I. Questo consente al nostro processo di pensiero Sistema II di analizzare i dati in modo preciso. Il nostro Sistema I inconscio ha la capacità di elaborare circa 11 milioni di informazioni/secondo, rispetto al nostro conscio, che può elaborare solo 40 informazioni/secondo.

Dobbiamo inoltre osservare come ciascun sistema utilizza i nostri sensi per raccogliere le informazioni. Secondo The User Illusion di Tor Norretranders, il senso della vista elabora la maggior parte delle informazioni in entrambi i sistemi:

visual processing bandwidth

Dal momento che il nostro sistema subconscio elabora più informazioni visive, la visualizzazione dei dati costituisce una soluzione perfetta per comunicare schemi e insight dai set di dati. Quando qualcuno osserva una visualizzazione dei dati, saranno necessari meno di 500 millisecondi per l’occhio e il cervello per elaborare le proprietà visive definite pre-vigili di un’immagine. Secondo il testo di Colin Ware Information Visualization: Perception for Design, egli definisce quattro proprietà visive pre-vigili:

  1. Colore
  2. Forma
  3. Movimento
  4. Posizionamento spaziale

Questi quattro elementi formano la composizione di ciascuna visualizzazione dei dati e dovrebbero essere presi attentamente in considerazione per la presentazione.

Cenni storici

Tipi comuni di visualizzazioni di dati


Serie temporali

  • Grafici a linee
  • Queste sono alcune delle visualizzazioni più elementari e comunemente utilizzate. Mostrano un cambiamento in una o più variabili nel tempo.

    line graph example

    Quando utilizzarlo: Devi mostrare come una variabile cambia nel tempo.

  • Grafici ad area
  • I grafici ad area sono una variazione dei grafici a linee e mostrano valori multipli in una serie temporale.

    area chart example

    Quando utilizzarlo: Devi mostrare modifiche cumulative in più variabili nel tempo.


Classifica

  • Grafici a barre
  • Questi grafici sono come quelli a linee, ma utilizzano le barre per rappresentare ogni dato analitico.

    bar chart example

    Quando utilizzarlo: I grafici a barre sono i più utilizzati quando si devono confrontare variabili multiple in un singolo arco temporale oppure una variabile singola in una serie temporale.

  • Piramidi della popolazione
  • Le piramidi della popolazione sono grafici a barre impilate che raffigurano la complessa narrazione sociale di una popolazione.

    population pyramid example

    Quando utilizzarlo: Devi mostrare la distribuzione di una popolazione.


Parte-Tutto

  • Grafici a torta
  • Questi mostrano le parti di un tutto nella forma di una torta.

    pie chart example

    Quando utilizzarlo: Vuoi vedere le parti di un tutto su base percentuale. Tuttavia, molti esperti consigliano invece di utilizzare altri formati, perché per l’occhio umano è più difficile dare senso ai dati in questo formato a causa del maggiore tempo di elaborazione. Molti sostengono che un grafico a barre o un grafico a linee abbiano più senso.

  • Mappe ad albero
  • Le mappe ad albero costituiscono un modo per mostrare dati gerarchici in un formato nidificato. Le dimensioni dei rettangoli sono proporzionali alla percentuale di ciascuna categoria dell’insieme.

    tree map example

    Quando utilizzarlo: Questi sono molto utili quando vuoi confrontare parti di un tutto e ci sono molte categorie.


Deviazione

  • Grafico a barre (effettivo vs. atteso)
  • Questi confrontano un valore atteso rispetto a un valore effettivo per una data variabile.

    bar chart expected vs unexpected  example

    Quando utilizzarlo: Devi confrontare valori attuali ed effettivi per una singola variabile. Gli esempi di cui sopra mostrano il numero di articoli venduti per categoria rispetto al numero atteso. Puoi osservare facilmente che le felpe hanno sottoperformato le aspettative su tutte le altre categorie, ma i vestiti e i pantaloni corti hanno sovraperformato.

Correlation

  • Grafici a dispersione
  • I grafici a dispersione mostrano la correlazione tra due variabili nella forma di un asse X e Y e i puntini che rappresentano i dati analitici.

    scatter plot example

    Quando utilizzarlo: Vuoi vedere la correlazione tra due variabili.


Distribuzione di frequenza

  • Istogrammi
  • Gli istogrammi rappresentano il numero di volte in cui un evento si verifica entro un set di dati stabilito, sotto forma di un grafico a barre.

    histogram example

    Quando utilizzarlo: Vuoi conoscere la distribuzione di frequenza di un dataset stabilito. Ad esempio, vuoi vedere la probabilità relativa della vendita di 300 articoli in un giorno, data una performance storica.

  • Box plot
  • Si tratta di visualizzazioni non parametriche che mostrano una misura di dispersione. La casella rappresenta il secondo e terzo quartile (50%) dei dati analitici e la linea all’interno della casella rappresenta la media. Le due linee che si estendono al di fuori della casella vengono definite baffi e rappresentano il primo e il quarto quartile, unitamente al valore minimo e massimo.

    box plot example

    Quando utilizzarlo: Vuoi vedere la distribuzione di uno o più dataset. Questi vengono utilizzati al posto degli istogrammi quando è necessario minimizzare lo spazio.


Confronto teorico

  • Grafici a bolle
  • I grafici a bolle sono simili ai grafici a dispersione ma aggiungono maggiore funzionalità perché la dimensione e/o il colore di ciascuna bolla rappresenta dati aggiuntivi.

    bubble chart example

    Quando utilizzarlo: Quando hai tre variabili da confrontare.

  • Mappe di calore
  • Una mappa di calore è una rappresentazione grafica di dati in cui ciascun valore individuale è contenuto all’interno di una matrice. Le sfumature rappresentano una quantità come definito dalla legenda.

    heatmap example

    Quando utilizzarlo: Questi sono utili quando vuoi analizzare una variabile attraverso una matrice di dati, come un periodo di giorni e ore. Le diverse sfumature ti permettono di discernere gli estremi rapidamente. L’esempio di cui sopra mostra gli utenti di un sito web per ora e momento del giorno nel corso di una settimana.


Confronto geografico

  • Choropleth
  • Le visualizzazioni Choropleth sono una variazione delle mappe di calore, dove viene applicata una sfumatura alla mappa geografica.

    chloropleth example

    Quando utilizzarlo: Devi confrontare un dataset per regione geografica.

Diagramma

  • di flusso Sankey
  • Il diagramma Sankey è un tipo di diagramma di flusso in cui la larghezza delle frecce viene mostrata proporzionalmente alla quantità di flusso.

    sankey diagram  example

    Quando utilizzarlo: Devi visualizzare il flusso di una quantità. Sopra, il famoso esempio dell’esercito di Napoleone mentre invadeva la Russia durante un freddo inverno. L’esercito parte come una massa larga ma si riduce mano a mano che procede verso Mosca e ripiega.


Relazioni

  • Diagramma di rete
  • Questo mostra le relazioni complesse tra entità. Mostra come ciascuna entità sia collegata alle altre per formare una rete.

    network diagram  example

    Quando utilizzarlo: Devi confrontare le relazioni all’interno di una rete. Questo è particolarmente utile per le reti di grandi dimensioni. L’esempio sopra mostra la rete delle traiettorie di volo per Southwest airlines.

Casi di utilizzo

La visualizzazione dei dati viene utilizzata in molte discipline e ha un impatto su come noi vediamo il mondo quotidianamente. Essere in grado di reagire e prendere decisioni rapidamente sia nel business che nei servizi pubblici è sempre più importante. Sotto, abbiamo stilato alcuni esempi di come viene solitamente utilizzata la visualizzazione dei dati.

Vendite e marketing

Secondo una ricerca dell’agenzia multimediale Magna, entro il 2020 la metà di tutti i dollari investiti nella pubblicità a livello globale saranno spesi online. Per questo motivo, gli addetti al marketing devono rimanere in cima alle modalità in cui le loro proprietà web stiano creando profitto unitamente alle proprie fonti di traffico web. Le visualizzazioni possono essere utilizzate per vedere facilmente le tendenze del traffico nel tempo, quale risultato degli sforzi di marketing.

marketing data visualization

Finanza

I professionisti della finanza devono tracciare la performance delle proprie scelte di investimento per decidere se acquistare o vendere una data risorsa. I grafici di visualizzazione a candela mostrano il cambiamento del prezzo nel tempo e il professionista della finanza può utilizzarlo per individuare le tendenze. La punta di ogni candela rappresenta il prezzo più alto in un periodo di tempo e la base rappresenta quello più basso. Nell’esempio, le candele verdi mostrano quando il prezzo è cresciuto, mentre quelle rosse mostrano quando il prezzo è calato. La visualizzazione può comunicare la modifica nel prezzo più facilmente rispetto a una griglia di dati analitici.

candlestick chart

Politica

La visualizzazione maggiormente riconosciuta in politica è una mappa geografica che mostra il partito per cui ha votato ciascun distretto o stato.

data visualization in politics

Logistica

Le compagnie di spedizioni utilizzano un software di visualizzazione per comprendere le rotte di spedizione a livello globale

logistics data visualiztion

Sanità

I professionisti del settore sanitario utilizzano visualizzazioni choropleth per osservare importanti dati sanitari. L’esempio seguente mostra il tasso di mortalità per malattie cardiache per contea negli U.S.A.

heart disease mortality rate

Strumenti di visualizzazione dei dati

D3.js

D3.js sta per Data-Driven-Documents ed è una Library di JavaScript per visualizzazioni dei dati dinamiche e interattive nei browser web. È stato creato nel 2011 e viene utilizzato su molti siti web. Svolge un lavoro eccellente nel fornire agli sviluppatori web un toolset per l’utilizzo di API e grafiche SVG per creare visualizzazioni nel web.

Excel

Uno degli strumenti più utilizzati è Microsoft Excel, incluso nella maggior parte dei computer da scrivania e metodo standard di visualizzazione dei dati. Gli utenti possono facilmente creare visualizzazioni rapide, ma non lo utilizzano spesso per l’aggregazione dei dati, governance e reporting avanzato.

Microstrategy

MicroStrategy è una azienda leader nelle soluzioni di enterprise analytics e offre dati disciplinati e personalizzati a ogni membro di un’organizzazione. Può gestire big data in modo veloce e automatizzato e offre la capacità di creare visualizzazioni dei dati personalizzate out-of-the-box.

FAQ

Perché utilizziamo la visualizzazione dei dati?
Quali sono i benefici della visualizzazione dei dati?
Che cos’è l’analisi e la visualizzazione dei dati?
Qual è lo scopo dell’uso di una dashboard per la visualizzazione dei dati?
Perché la visualizzazione dei dati è così importante?
Che cos’è la presentazione dei dati?