Frequenze di classe

Spesso capita che i dati disponibili per l'indagine statistica sono molti, e quindi la tabella delle frequenze potrebbe non essere più adatta. In tal caso è opportuno raggruppare i dati in intervalli tra loro disgiunti detti classi. Supponiamo, ad esempio, che siano state rilevate, su un gruppo di 100 ragazzi maschi di 17 anni (ma potrebbero essere 1000 o 10000), i seguenti dati relativi alle altezze arrotondate al centimetro:

Osservando i dati possiamo renderci conto che l'altezza minima rilevata è di 159 cm e la massima di 186 cm; è allora ragionevole considerare le seguenti classi di dati:

dove ogni classe ha la stessa ampiezza pari a 5 unità. Se l'ampiezza di classe fosse minore, avremmo naturalmente un maggior numero di classi. Il numero di classi è arbitrario ma bisogna valutarlo con attenzione: le classi non dovono essere nè troppe nè troppo poche. Un gran numero di classi implica una modesta perdita di informazione rispetto alla distribuzione originaria dei dati ma poi risulta più difficoltoso dare una valutazione sintetica del fenomeno che si sta studiando; al contrario un piccolo numero di classi facilita un'interpretazione sintetica ma determina una forte perdita di informazione. In ogni caso le classi non devono sovrapporsi e devono contenere tutti i dati.

Una volta scelte le classi bisogna contare il numero di dati che cade in ciascuna delle nostre classi: chiameremo tale numero frequenza di classe. Ecco la tabella delle frequenze di classe:

E l'istogramma con il poligono delle frequenze di classe:

A questo punto possiamo studiare i dati aggregati dai quali appare chiaro, che le altezze si addensano in una classe centrale, la classe 171-175, che è dunque la classe più rappresentativa delle altezze rilevate. Notiamo inoltre una certa simmetria nell'istogramma: i rettangoli in posizioni simmetriche rispetto a quello centrale, siano essi a sinistra o a destra di quello centrale, hanno altezze decrescenti. Si tratta di una simmetria imperfetta. E' una simmetria che non deve destare meraviglia perchè è naturale che più le classi si allontanano dalla fascia centrale, minori saranno le loro frequenze.

Il metodo statistico del raggruppamento in classi consente di far emergere una struttura che appariva nascosta nei dati grezzi; naturalmente c'è una contropartita in termini di perdita di informazione: all'interno di ciascuna classe non siamo in grado discriminare una gradualità di valori.

© giuseppe sarnataro