Dati statistici. Frequenza

Quando si raccolgono dei dati relativi a un fenomeno, bisogna poi organizzarli ed elaborarli in modo da poter individuare le informazioni racchiuse in questi dati. Per avere un'idea di questo modo di operare consideriamo una situazione concreta. I seguenti dati numerici rappresentano i giorni di malattia, nell'arco di un anno, di ciascuno dei 60 operai di una ditta.

Se osserviamo questi dati grezzi, cosí come sono proposti, è difficile ricavarne qualche indicazione significativa. Non è ad esempio immediato sapere quanti sono gli operai che hanno fatto più di 3 giorni di malattia o più di 6 giorni di matattia. Dovremmo, ogni volta, esaminare l'intera massa di dati. E, ancor di più, non è affatto chiaro quale sia il numero dei giorni di malattia che meglio rappresenti la situazione (il numero medio dei giorni di malattia). Il problema è che qui abbiamo una serie di dati privi di qualsiasi organizzazione; i dati si trovano nella stessa forma in cui sono stati rilevati e non hanno subito alcun processo di elaborazione. Una prima forma di elaborazione dei dati consiste nel raggrupparli secondo un qualche criterio e stabilire quanti dati ci sono in ogni raggruppamento che chiameremo frequenza assoluta o più semplicemente frequenza. Ad esempio, riferendoci ai nostri dati, la frequenza del dato 5 è 3 perch è il dato 5 compare 3 volte nel nostro elenco (ci sono quindi 3 operai che hanno fatto 5 assenze per malattia). Raggruppiamo i dati tenendo conto della loro frequenza; poichè il massimo numero di giorni di malattia è 10, costruiamo una tabella di questo tipo:

detta distribuzione di frequenze relativa ai giorni di malattia. Come si vede, nella tabella il numero delle assenze per malattia è in ordine crescente e viene riportata non solo la frequenza di ciascun dato ma anche la frequenza cumulativa che si ottiene sommando una data frequenza con le frequenze che le stanno al di sopra. E' chiaro qual è il significato della frequenza cumulativa; se ad esempio vogliamo sapere quanti sono gli operai che hanno fatto al massimo 5 giorni di malattia, basta guardare la frequenza cumulativa relativa a 5. Per studiare i dati è anche utile determinare la frequenza percentuale che si ottiene moltiplicando per 100 il rapporto tra la frequenza e il numero totale dei dati. Ad esempio, poichè gli operai che hanno fatto al massimo 5 giorni di malattia sono 54 su 60, si può dire che la loro percentuale è:

La tabella precedente è naturalmente suscettibile di varie rappresentazioni grafiche. Ricordiamo che è sempre più significativo un grafico di una tabella (per quanto ben organizzata). Ecco, ad esempio, l'istogramma delle frequenze.

I rettangoli dell'istogramma hanno le altezze proporzionali ai valori che rappresentano, cioè alle frequenze, e le basi hanno sempre la stessa lunghezza. L'area dei rettangoli è quindi direttamente proporzionale ai valori rappresentati. E' stato tracciato, inoltre, quello che si chiama poligono delle frequenze, cioè la spezzata che collega i punti medi delle basi superiori di ciascun rettangolo. Spesso è utile anche costruire l'istogramma delle frequenze cumulative per avere a colpo d'occhio, altre informazione come ad esempio stabilire che la maggior parte degli operai non fa pi ù di 5 giorni di malattia.

Per studiare i dati è anche utile determinare la frequenza relativa, ossia il rapporto tra la frequenza e il numero totale dei dati. Naturalmente la frequenza relativa è sempre un numero compreso tra 0 e 1 estremi compresi. Ad esempio, la frequenza relativa degli operai che hanno fatto una sola giornata di malattia (cioè la frequenza relativa del numero 1 nell'elenco iniziale) è data dal rapporto 16/60 che, espresso percentualmente, equivale a:

Come si vede moltiplicando per 100 la frequenza relativa di un dato si ottiene la frequenza percentuale. La somma delle frequenze relative di ciascun dato in una serie di dati è, evidentemente, sempre uguale a 1 mentre la somma delle frequenze percentuali di ciascun dato in una serie di dati è sempre uguale a 100. Nel nostro caso la somma delle frequenze relative è:

Anche le frequenze cumulative possono essere relative; quando ad esempio è stato calcolato la percentuale degli operai che hanno fatto al massimo 5 giorni di matattia (era il 90%), è stato calcolato una frequenza cumulativa relativa.

In conclusione: è stato prodotto una prima elaborazione dei dati del nostro elenco iniziale e, ora, siamo in grado di leggere meglio l'informazione che quei dati nascondevano. Naturalmente i nostri dati sono suscettibili di ulteriori elaborazioni: ce ne occuperemo nei prossimi paragrafi.

© giuseppe sarnataro