Retta di regressione

Indice

Dati statistici. Frequenza

Frequenze di classe

Indici di posizioni. La moda

La mediana

La media aritmetica

Indici di dispersioni

Varianza e scarto quadratico medio

Forma di una distribuzione

Distribuzione normale

Retta di regressione

Il coefficiente di correlazione lineare

Retta di regressione

Una questione che spesso si pone in statistica è capire se esista una relazione tra due serie di dati o, diremo, una correlazione tra dati. Una volta accertato che tale relazione esiste, il passo successivo consiste nel determinare il modello matematico che meglio rappresenta tale relazione. In questa introduzione di carattere elementare alla statistica, verrà affrontato solo il caso del modello lineare. Consideriamo ad esempio questo esperimento. Ad una molla vengono applicati vari pesi e, per ogni peso, si registra la lunghezza della molla.

E’ evidente che esiste una relazione tra i valori (in Kg)

x₁, x₂, …, x_n
dei pesi applicati e i valori (in cm)

y₁, y₂, …, y_n
della lunghezza della molla. Ecco dunque le nostre due serie di dati correlati: i dati x (pesi) e i dati y (lunghezze). Tra le due serie di dati o, se vuoi, tra le due variabili x e y, c'è una correlazione che chiameremo positiva perchè al crescere di x cresce anche y. Quella che segue è una tabella di dati ricavati sperimentalmente:

Il modo più semplice per capire quale tipo di relazione intercorra tra le due serie di dati (tra le due variabili) è quello di tracciare un diagramma di dispersione o scatter plot:

Si tratta semplicemente di un piano cartesiano in cui sono stati tracciati i punti isolati che rappresentano coppie di dati numerici corrispondenti

(x₁, y₁), (x₂, y₂), …, (x₅, y₅)
con l'accortezza di porre sull'asse delle ascisse la variabile x da cui, nella logica del nostro esperimento, dipende la variabile y. Se osserviamo i punti ci rendiamo conto che sono approssimativamente allineati anche se non esattamente allineati. Possiamo allora rappresentare la relazione che intercorre tra le due serie di dati con un modello lineare cioè possiamo assumere che i punti (x, y) si dispongano su una retta. Il problema è ora capire qual è la retta che meglio approssima o che più si avvicina ai nostri punti. Analizziamo prima una situazione generale ma semplice costituita da tre punti non allineati, ad esempio:

A = (1, 2), B = (2, 1), C = (3, 3)
e rappresentiamoli nel piano cartesiano

Supponiamo che sia la retta r quella che più si avvicina ai tre punti e cerchiamo di capire qual è un criterio ragionevole per valutare la “vicinanza” della retta r ai tre punti.

Un primo approccio è quello di considerare la somma delle lunghezze dei segmenti AA’, BB’, CC’ dove A’, B’, C’ sono i punti di r che hanno rispettivamente la stessa ascissa di A, di B, di C. E’ ragionevole chiedere, affinchè la scelta di r sia la migliore possibile, che la somma di queste tre distanze sia la minima possibile. Per valutare queste distanze entrano in gioco, però, dei valori assoluti e ciò comporta delle complicazioni che vogliamo evitare. Allora, invece delle distanze, consideriamo i quadrati delle distanze e cerchiamo, quindi, di rendere minima la somma di tali quadrati.

Ciò significa rendere minima la somma delle aree dei quadrati. Naturalmente, tanto minore è questa somma di aree, tanto più la retta può considerarsi vicina ai nostri tre punti. Questo modo di procedere è detto metodo dei minimi quadrati. Dobbiamo ora affrontare la seconda parte del nostro ragionamento, di tipo analitico. Dobbiamo determinare l'equazione della retta r con il metodo dei minimi quadrati. Consideriamo una generica retta r di equazione:

y = mx + q
I tre punti A’, B’, C’, appartenenti ad r, hanno coordinate

A’ = (1, m ⋅ 1 + q), B’ = (2, m ⋅ 2 + q), C’ = (3, m ⋅ 3 + q)
e le tre distanze che ci interessano sono

Quindi la somma s dei quadrati delle distanze è:

s = (2 - m - q)² + (1 - 2m - q)² + (3 - 3m - q)²
Sviluppando:

s = 14m² + 2m(6q - 13) + 3q² - 12q + 14
La somma s dipende dunque, come c'era da aspettarsi, dai due parametri m e q che individuano la retta (al variare della retta, cioè di m e q, varia la somma s). Noi dobbiamo trovare i valori di m e q per i quali s diventa la più piccola possibile. Come fare? Consideriamo la somma s come una funzione della sola variabile m, pensando che q sia un parametro.

Come si vede, s(m) è un trinomio di secondo grado in m; il suo grafico è una parabola con l'apertura verso l’alto (perchèé a>0) e quindi il minimo dei valori s(m) viene raggiunto quando m è l'ascissa del vertice della parabola, quando cioè

L'ordinata del vertice, cioè il minimo della somma s(m), è allora

Ma questo minimo è una funzione quadratica del parametro q; certo, perchè per ogni valore di q possiamo tracciare una parabola s(m) e ogni parabola avrà il suo minimo.

Dobbiamo perciò ripetere il nostro ragionamento, dobbiamo trovare il minimo dei minimi. Il minimo dei minimi viene raggiunto nell'ascissa del vertice della nuova parabola.

quando cioè

Essendo q=1 si ha

e la retta cercata ha equazione

Possiamo ora tracciare la retta che più si avvicina ai tre punti

Questa retta, che abbiamo determinato col metodo dei minimi quadrati e che possiamo considerare come quella che meglio approssima i nostri punti, prende il nome di retta di regressione o retta dei minimi quadrati. Ora probabilmente osserverai: qui i punti che entrano in gioco sono solo tre, ma se fossero molti di più, diciamo 1000, i calcoli da eseguire diventerebbero proibitivi. Sí, è proprio cosí. Ecco perchè, in pratica, useremo una formula. E’ una formula che si potrebbe dimostrare utilizzando lo stesso identico ragionamento da noi adottato nel caso di tre punti, con qualche appesantimento formale in più. Eccola:

La retta che meglio approssima, secondo il metodo dei minimi quadrati, gli n punti

P₁ = (x₁, y₁), P₂ = (x₂, y₂), … , P_n = (x₁, y₁)
prende il nome di retta di regressione relativa a tali punti e ha equazione:

y = mx + q
dove

C'è una proprietà importante che discende facilmente dalle nostre formule: il punto

che ha per ascissa la media delle ascisse e per ordinata la media delle ordinate e che chiameremo baricentro dei punti P₁, P₂, … , P_n, appartiene alla retta di regressione; infatti si ha

Il punto

ha una disposizione “media” rispetto al nostro insieme di punti - o, come si dice, alla nostra nuvola di punti - e quindi c'era da aspettarsi che appartenesse alla retta di regressione, la retta più vicina a ciascun punto della nuvola. Le formule esaminate sono un pò complicate, vediamo come applicarle ai nostri tre punti A, B, C. La cosa più semplice è costruire una tabella come questa

Dalla tabella segue

e quindi troviamo che l’equazione della retta di regressione è

come già sapevamo.

Stabilito le relazioni che ci permettono di determinare la retta di regressione ritorniamo al nostro caso iniziale dei vari pesi applicati a una molla e costruiamo la tabella in cui sono presenti i valori x_i, y_i, x_iy_i e x_i² con i che va da 1 a 5.

Dalla tabella segue:

e quindi la retta di regressione ha equazione:

y = 0,23x + 1,099
E riportando nel grafico la retta e i punti si ha:

Primi elementi di statistica

Retta di regressione