Indici di dispersioni

Gli indici di posizione, ad esempio la media o la mediana, ci danno un'indicazione su quale sia il valore “centrale” di una serie di dati ma non forniscono alcuna informazione su come tali dati siano distribuiti attorno a tale valore centrale. Consideriamo ad esempio queste due serie di dati:

  • Prima serie

    3, 4, 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9

  • Seconda serie

    1, 1, 1, 1, 2, 2, 2, 3, 9, 10, 10, 10, 11, 11, 11, 11

Le due serie hanno la stessa mediana, uguale a 6, ma la distribuzione dei dati attorno a tale valore centrale è ben diversa; come si vede anche dagli istogrammi delle frequenze:

Entrambe le distribuzioni di dati sono simmetriche rispetto alla mediana ma mentre nella prima serie i dati si addensano attorno alla mediana, nella seconda serie sono dispersi rispetto alla mediana. Non abbiamo dunque, allo stato, strumenti matematici per capire che tipo di distribuzione abbia una serie di dati. Una prima indicazione, sia pure di modesta utilità, è la conoscenza di quello che si chiama campo di variazione dei dati cioè la differenza tra il valore più grande e quello più piccolo di una serie di dati numerici. Una seconda indicazione è data dallo conoscenza della differenza interquartile cioè la differenza tra il terzo quartile e il primo quartile di una serie di dati numerici. La differenza interquartile è un indice di dispersione che viene di solito utilizzato assieme alla mediana e ci da un'idea di come i dati siano distribuiti attorno alla mediana. Analizziamo le nostre due serie di dati.

  • Analisi della prima serie.

    Il campo di variazione è

    d = 9 - 3 = 6

    e la differenza interquartile è

    diq = 7 - 5 = 2

    Il valore diq ci dice che la “metà centrale” dei dati varia all'interno di un intervallo di ampiezza 2.

  • Analisi della seconda serie.

    Il campo di variazione è

    d = 11 - 1 = 10

    e la differenza interquartile è

    diq = 10,5 - 1,5 = 9

    Il valore diq ci dice che la “metà centrale” dei dati varia all'interno di un intervallo di ampiezza 9.

Le due serie di dati hanno la stessa mediana ma la prima serie ha sia il campo di variazione sia la differenza interquartile minori della seconda serie. Possiamo quindi concludere che i dati della prima serie sono meno dispersi rispetto al valore centrale di quanto non lo siano i dati della seconda. Entrambe le serie hanno inoltre la media aritmetica uguale alla mediana e ciò, come vedremo, indica una distribuzione dei dati simmetrica rispetto al valore centrale.

© giuseppe sarnataro