Il coefficiente di correlazione lineare

Come ricorderai, per valutare il grado di dispersione di una serie di dati attorno alla media è stato introdotto un indice di dispersione, lo scarto quadratico medio. Ora si pone una problema analogo. Avendo due serie di dati

x1, x2, …, xn e y1, y2, …, yn

è importante poter disporre di un indice numerico che misuri il grado di correlazione lineare tra le due serie. Cioè un indice che misuri quanto la retta di regressione relativa alla nuvola di punti

P1 = (x1, y1), P2 = (x2, y2), …, Pn = (xn, yn)

sia adatta a rappresentare la distribuzione dei punti nel piano o, se vuoi, quanto i punti della nuvola siano dispersi attorno alla retta di regressione. Ad esempio in figura

possiamo vedere i diagrammi di dispersione relativi a due nuvole di punti; per ogni nuvola, inoltre, è stata tracciata la retta di regressione. Come si vede, nel primo diagramma i punti della nuvola si “addensano” attorno alla retta di regressione; ciò avviene ancora nel secondo diagramma ma in misura decisamente minore. Nel primo caso c'è una correlazione lineare molto forte tra le due serie di dati, mentre tale correlazione è decisamente più debole nel secondo caso. Il modello lineare si adatta meglio alla prima distribuzione che alla seconda. Queste, però, sono considerazioni di tipo qualitativo, fatte sulla base dell'osservazione dei diagrammi di dispersione. Ben più utile sarebbe un indice numerico in grado di discriminare una distribuzione di punti dall'altra in base al suo grado di linearità. La statistica fornisce un indice atto allo scopo detto coefficiente di correlazione lineare che ha per formula:

Si potrebbe dimostrare che il coefficiente di correlazione lineare r gode delle seguenti proprietà:

  • Si ha sempre -1 ≤ r ≤ 1.

  • Se r=1 oppure r = -1 i punti Pi sono allineati. Tanto più r è vicino a 1 o a -1, tanto più forte è la correlazione lineare cioè tanto più i punti si addensano attorno alla retta di regressione.

  • Se r > 0 la correlazione è positiva, se r < 0 la correlazione è negativa. Se r=0 la nuvola di punti non presenta correlazione lineare. Tanto più r è vicino a 0 tanto più debole è la correlazione lineare.

La formula del coefficiente di correlazione lineare può essere posta in una forma equivalente ma più comoda per i calcoli (e più efficiente dal punto di vista dell'accuratezza); eccola

(le sommatorie, come sempre, sono con i che va da 1 a n).

© giuseppe sarnataro