Varianza e scarto quadratico medio

Consideriamo un insieme di n dati:

x1, x2, ..., xn

e per ogni valore xi dell'insieme dei dati definiamo lo scarto dalla media come la differenza tra il valore xi e la media dei valori:

Si misura cosí, quanto ciascun valore sia distante dalla media. Ad esempio, consideriamo l'insieme dei cinque valori

1, 3, 8, 4, 9

e la loro media aritmetica che è 5. Lo scarto dalla media di ogni singolo dato ha sia valori positivi sia valori negativi; lo scarto del valore 9 dalla media è positivo

9 - 5 = 4

mentre lo scarto del valore 1 dalla media è negativo

1 - 5 = -4

Possiamo rappresentare con un istogramma i dati, gli scarti dalla media e la media in questo modo:

Avere scarti dalla media sia positivi sia negativi è spiacevole per due motivi. In primo luogo sappiamo che una distanza è, concettualmente, sempre espressa da un numero non negativo. C'è poi un altro motivo. Per avere un'idea di quanto i dati, nel loro insieme, siano dispersi rispetto alla media è ragionevole sommare le “distanze”, comunque esse siano definite, di ciascun dato dalla media. Ora, se le distanze sono sia positive sia negative, è chiaro che la loro somma non sarà più indicativa (perchè le distanze negative andranno a sottrarsi). Per di più è facile rendersi conto che la somma degli scarti dalla media è sempre uguale a zero; quindi c'è un perfetto bilanciamento tra “distanze” positive e “distanze” negative. Il problema si risolve facilmente. Quando, in matematica, si ritiene “scomoda” la presenza di un valore negativo si hanno due possibilità: si considera il valore assoluto oppure il quadrato di tale valore. Nel nostro caso entrambe le strade sono percorribili; ma per ragioni di praticità (e anche teoriche) si preferisce la seconda. Assumeremo dunque come “distanza” di ciascun valore dalla media non lo scarto nè il valore assoluto dello scarto ma il quadrato dello scarto dalla media. E allora, per avere una misura della dispersione di una serie di dati rispetto alla media, potremo sensatamente considerare la media aritmetica delle distanze di ciascun dato dalla media (con la distanza definita come si è detto). In altre parole sommeremo i quadrati degli scarti e divideremo per il numero dei dati. Abbiamo così definito un indice di dispersione detto varianza. Pertanto se consideriamo un insieme di n dati:

x1, x2, ..., xn

e la loro media aritmetica

chiameremo varianza il valore

Utilizzando il simbolo di sommatoria la formula per la varianza può scriversi in questo modo:

Come si vede, la varianza viene indicata col simbolo σ2 (che si legge: “sigma al quadrato”). Perchè quel quadrato? Il motivo è questo: qualunque sia l'unità di misura u dei nostri dati, la varianza mette in gioco i quadrati dei dati e ha dunque come unità di misura u2 e non u. Tecnicamente, si dice che la varianza ha dimensione diversa da quella dei dati: se ad esempio i dati fossero lunghezze, la varianza sarebbe un'area. Se vogliamo un indice di dispersione che abbia la stessa unità di misura dei dati non dobbiamo far altro che estrarre la radice quadrata della varianza. In altre parole “controbilanciamo” i quadrati estraendo la radice quadrata. Otteniamo cosí un altro indice di dispersione detto scarto quadratico medio o deviazione standard.

Calcoliamo lo scarto quadratico medio dei nostri dati; si ha

Tenendo conto che la media è 5, lo scarto quadratico medio è, relativamente alla media, di 3,03 su 5 cioè è del

Per concludere. Se riflettiamo sulla formula che fornisce lo scarto quadratico medio possiamo notare che ha alcune evidenti proprietà:

  1. σ è un numero sempre non negativo;

  2. σ è nullo se e solo se tutti i valori x1, x2, …, xn sono uguali alla media (nessuna dispersione);

  3. σ aumenta all'aumentare della distanza dalla media di ogni singolo valore (ferme restando le distanze degli altri valori); ne segue σ è tanto più grande quanto più i dati si discostano dalla media.

Per la varianza (e quindi per lo scarto quadratico medio) si possono usare delle formule equivalenti ma più comode dal punto di vista del calcolo e più efficienti ai fini dell'accuratezza; eccone una:

© giuseppe sarnataro