Capitolo 2 I dati

Nel seguito faremo riferimento al termine dati intendendo un insieme di informazioni relative a un insieme di unità.

Ci concentreremo ora sull’“Analisi Esplorativa dei Dati” (EDA) o “analisi descrittiva”. L’obiettivo è mettere in luce aspetti interessanti dei dati applicando tecniche di analisi, riassunti numerici e rappresentazioni grafiche.

L’aspetto essenziale è che in tale fase si vorrebbe che siano i dati stessi a parlare, senza ricorrere a assunzioni specifiche, e a rivelare caratteristiche salienti e interessanti.

2.1 Popolazione e unità statistiche

I dati possono essere raccolti per diversi motivi:

  • a supporto della ricerca scientifica in diversi ambiti,
  • raccolti dalla pubblica amministrazione nel gestire un servizio o a seguito dell’utilizzo di un software o nella gestione di un sito web.

In generale, va detto che l’obiettivo ultimo è quello di conoscere le caratteristiche di una popolazione.

Una popolazione è una collettività e gli elementi di tale collettività sono detti unità statistiche, sono esempi:

  • la popolazione degli italiani di sesso maschile con oltre 18 anni al 01/01/2012;
  • le famiglie italiane al 01/01/2012;
  • i 218 comuni del FVG;
  • i clienti di un negozio;
  • coloro che accedono a un sito web.

La popolazione può essere finita (ad es. la popolazione italiana) o infinita (ad es. tutte le persone affette da una patologia, oggi o in futuro).

2.1.1 Dati e ricerca scientifica

Occorre che i dati vengano raccolti utilizzando protocolli che permettano di generalizzare quello che emergerà dalla loro analisi. La statistica, e in particolare quella inferenziale, stabilisce criteri e regole perchè si possa attribuire ai dati raccolti un valore scientifico. A tal fine si distingue fra:

  1. dati ottenuti secondo disegni sperimentali controllati. Essi consentono di valutare correttamente l’esistenza di relazioni causali - come l’efficacia di un farmaco - o valutare un processo di produzione;
  2. dati osservazionali. Questi sono disponibili in un numero di casi forse più ampio. Essi vengono spesso raccolti in indagini o rilevazioni statistiche che sono di tipo:
  • totale (o censuario) se osservo tutte le unità della popolazione (è appunto il caso del censimento),
  • o parziale (cosa inevitabile se la popolazione è infinita) quindi osservando solo alcuni elementi della popolazione.

Nel caso della rilevazione parziale è cruciale che la raccolta dei dati avvenga secondo schemi che li rendano rappresentativi dell’intera popolazione.

La migliore garanzia è offerta da una selezione (campionamento) degli elementi da osservare che segua criteri di scelta casuale. Solo se si può contare su un rigoroso schema di campionamento casuale è possibile utilizzare correttamente i metodi della statistica per formulare conclusioni riferite alla intera popolazione.

Si noti che nel caso i dati vengano rilevati in un contesto osservazionale, anche se si utilizzano schemi di campionamento rigorosi, non è tuttavia possibile, o agevole, poter trarre conclusioni sulla esistenza di una relazione fra le variabili osservate. Occorre quindi molta cautela nell’interpretare in senso causale le associazioni osservate e spesso occorre ricorrere ad assunzioni non verificabili empiricamente.

2.2 Analisi esplorativa dei dati

L’analisi esplorativa dei dati (EDA) o (in inglese data analysis) o analisi statistica descrittiva non si pone l’obiettivo di ricavare conclusioni su un aggregato diverso da quello osservato (cosa di estremo rilievo in contesti scientifici).

L’attenzione è invece sulle tecniche per fornire efficaci sintesi dei dati (anche con opportune tecniche grafiche di visualizzazione) così da mettere in evidenza alcune caratteristiche essenziali con l’obiettivo di monitorare un fenomeno, effettuare confronti, elaborare congetture da sottoporre poi ad analisi più accurate.

Le conclusioni che si traggono non voglione quindi avere carattere di generalità: non si vuole estendere quanto si osserva sull’insieme di dati disponibile a popolazioni più ampie utilizzando apparati formali (come quello della statistica inferenziale dove si riesce a misurare anche l’attendibilità delle conclusioni che si traggono).

Tuttavia i pattern osservati nei dati sono evidenze utili seppure riferibili esclusivamente all’insieme di dati osservato. Si noti che se i dati si riferiscono a un’intera popolazione (come per il censimento) ottenere una efficace sintesi degli stessi costituisce informazione valida per l’intera popolazione.

Non si fa quindi riferimento a priori a modelli stocastici che potrebbero aver generato i dati come nel caso dell’inferenza statistica o all’esistenza di relazioni specifiche fra le quantità osservate.

Si prescinde inoltre dall’idea che i dati siano “perfetti” e si ammette che essi possano essere sporchi, inaccurati, osservati in modo incompleto e con errori. Per cui l’analisi dei dati che introdurremo dovrà spesso includere una fase non banale di “pulizia” dei dati preliminare alla fase di analisi esplorativa.

2.2.1 Tipi di dati

2.2.1.1 Variabili statistiche

Un dato statistico è il risultato della rilevazione (misurazione/osservazione) di variabili o caratteri su un’unità statistica appartenente a una popolazione.

2.2.1.2 Tipi di variabili (o caratteri)

2.2.1.3 Variabili qualitative

  • Una variabile è qualitativa se i valori che può assumere, detti modalità, si presentano espressi in forma verbale;
    • una variabile qualitativa è sconnessa se le sue modalità non implicano una graduazione;
    • una variabile qualitativa è ordinale se le sue modalità implicano una graduazione;
  • le modalità possono essere predefinite a priori;
  • a volte, in rilevazioni con questionari, le modalità vengono desunte a posteriori a partire dalla descrizione dettagliata dello stato della singola unità relativamente al carattere in questione.

Le variabili qualitative ai fine delle analisi dei dati che verranno condotte con R sarà opportuno definirle come fattori.

2.2.1.4 Variabili quantitative

  • Una variabile è quantitativa se assume valori espressi in forma numerica che corrispondono a una misurazione o a un conteggio;
  • rispetto ai valori che possono assumere
    • una variabile quantitativa è discreta se l’insieme dei valori numerici che può assumere è finito oppure numerabile;
    • una variabile quantitativa è continua se l’insieme dei valori numerici che assume è, almeno concettualmente, associabile con i valori di un intervallo reale, limitato o illimitato.

NB. Per la limitata precisione utilizzabile nel rilevare le misure, la distinzione tra variabile discreta e continua è di fatto convenzionale.

2.2.2 La matrice dei dati

La più semplice forma con cui rappresentare i dati relativi ad alcune variabili, diciamo \(p\), su un collettivo di \(n\) unità è la matrice dei dati. Ovvero una matrice che ha \(n\) righe e \(p\) colonne. Così che una riga rappresenta i dati raccolti per una generica unità e una colonna contiene il vettore di valori osservati su ciascuna variabile per l’insieme delle unità.

Di solito \(n\) è molto maggiore di \(p\) e l’obiettivo dell’analisi dei dati è quello di analizzare le colonne della matrice:

  • se si prende in esame una variabile (colonna) per volta si parla di analisi di una singola variabile o analisi univariata
  • se si prendono in esame più variabili (più colonne) congiuntamente si parla di analisi bivariata nel casi di due variabili o multivariata se considero più di due colonne congiuntamente.