Davvero credi di dimostrarmi qualcosa con un grafico?
Statistiche e strumentalizzazioni
Riccardo Puglisi, 16 set 2015
Siamo tutti abbastanza insicuri da sapere che sarebbe bello vivere in un mondo ordinato, e soprattutto in un mondo in cui si capiscono subito le spiegazioni del perché le cose accadono in un certo modo invece che in un altro. Detto in altre parole: sarebbe bello poter dimostrare facilmente che un certo fenomeno Y è causato da un certo altro fenomeno X. Mettendoci subito un bel punto.
Questa ricerca dell’ordine nelle cose è comprensibile da un punto di vista psicologico ma ci lascia potenziali vittime di molti inganni, inflitti da qualcun altro oppure che ci autoinfliggiamo. Uno dei principali inganni consiste nel confondere la correlazione con la causazione: tutte le volte che notiamo che individui che hanno una caratteristica X più elevata e nel contempo un’altra caratteristica Y più elevata, una qualche forma di istinto ci induce a pensare che la caratteristica X abbia un effetto positivo sulla caratteristica Y.
Uno dei principali inganni consiste nel confondere la correlazione con la causazione
Tutto è relativamente più semplice quando ci si sposta dal regno disordinato dei fenomeni umani e sociali al regno delle scienze naturali, dove è possibile raggiungere conclusioni forti sui legami di causazione tra fenomeni grazie agli esperimenti controllati: si tengono ferme tutte le altre condizioni e in maniera casuale si cambia il livello della variabile X e si verifica che cosa succede alla variabile Y. In questo caso la correlazione tra fenomeni ci sta dicendo qualcosa di immediato sul legame di causa ed effetto.
Il mondo dei fenomeni sociali è più difficile, e un esempio chiaro per illustrare questa difficoltà è quello degli effetti degli anni di istruzione sul salario futuro degli individui: è evidente come sia eticamente inaccettabile – oltre che quasi impossibile da realizzare - un esperimento in cui si obbligano a caso gli individui in giovane età a seguire un numero diverso di anni di corsi di istruzione formale. Se ciò fosse possibile, sarebbe immediato verificare l’effetto di un anno in più di istruzione sul salario futuro della persona.
Se non puoi realizzare un esperimento devi seguire strade più impervie, che devono soprattutto tenere conto delle cosiddette variabili omesse, cioè variabili che “confondono le acque” nella relazione tra anni di istruzione e salario futuro. Perché confonda le acque tale variabile deve avere un legame sia con la causa potenziale (gli anni di istruzione) che l’effetto (il salario futuro). Si possono individuare diverse variabili omesse in questo caso specifico, ma il “colpevole” più comunemente indicato è l’abilità del singolo individuo.
Individui più abili studiano per più anni e guadagnano di più. Ma tu pensi che quel guadagno in più sia tutto dovuto all'istruzione!
Un individuo sveglio avrà di solito meno difficoltà a imparare a scuola e dunque a proseguire con i suoi studi, e contemporaneamente questo stesso individuo guadagnerebbe comunque di più sul mercato del lavoro, appunto perché è abile, sveglio. L’inganno consiste nel guardare soltanto la correlazione nei dati su salario e anni di istruzione omettendo di riflettere sulla variabile omessa, ad esempio l’abilità. E il rischio sta nel sovrastimare l’effetto dell’istruzione sul salario in quanto tale correlazione positiva assorbe anche la spinta data al salario futuro dall’abilità, cioè la variabile omessa.
Detto in una frase: individui più abili studiano per più anni e guadagnano di più. Ma tu pensi che quel guadagno in più sia tutto dovuto all'istruzione!
Per i dati sul Pil e occupazione, l’inganno funziona così: si mostra in un grafico il momento esatto in cui è accaduto qualcosa di rilevante e si ammicca a quel che è successo dopo
È bello un mondo a due dimensioni che puoi rappresentare facilmente sul piano cartesiano, ma questo mondo bidimensionale è semplicistico e ingannevole perché ti induce a dimenticarti della variabile omessa, cioè di una concausa. Come uscirne? In assenza di un esperimento una soluzione semplice sta nel cercare di misurare la variabile omessa e inserirla nel modello statistico che si utilizza: ad esempio si potrebbero usare test attitudinali o di intelligenza per misurare l’abilità degli individui.
Senza entrare nei dettagli tecnici, l’analisi delle concause – cioè la gestione delle variabili omesse - si fa attraverso il cosiddetto modello di regressione multipla. Che cosa significa? L’idea è di analizzare il legame esistente tra anni di istruzione e salario a pari livello di abilità: è come prendere individui che hanno un pari livello di abilità (che ora riesci a misurare, o perlomeno provi) e analizzare per questi la correlazione tra salario e anni di istruzione.
Torniamo al mondo reale, e in particolare allo studio della macroeconomia, cioè dell’andamento di grandezze come il Pil, l’occupazione, l’inflazione eccetera: sono questioni importanti in cui sarebbe consolante individuare un ordine, cioè l’esatta forma e direzione dei rapporti di causa ed effetto. Peccato che qui gli esperimenti siano di fatto impossibili. Dunque bisogna soprattutto preoccuparsi dell’effetto confondente delle variabili omesse. Cosa che purtroppo non si fa spesso, dacché si pensa che basti un grafico con l’andamento temporale di alcune variabili per dimostrare alcunché.
L’inganno funziona in questo modo: si mostra in un grafico il momento esatto in cui è accaduto qualcosa di rilevante e si ammicca a quel che è successo dopo. Il punto è che in macroeconomia quel “qualcosa di rilevante” non è mai (o quasi mai) un esperimento, dunque la presenza potenziale di variabili omesse non ti permette di dimostrare nulla. Ad esempio potrebbero essere successi contemporaneamente altri eventi che hanno un influenza sulla variabile di interesse: sono variabili omesse che confondono le acque! E soprattutto le idee.
Il “che cosa succede prima e dopo l’introduzione dell’euro” non può essere trattato come dimostrazione del legame di causa/effetto
Questo utilizzo furbesco e scorretto dei grafici è particolarmente comune nell’analisi deglieffetti dell’introduzione dell’euro, e la finalità neanche troppo velata è quella di dimostrare i danni dell’euro stesso, in particolare sull’economia del nostro Paese. Non è nemmeno sufficiente mostrarti graficamente l’andamento di Paesi diversi, in questo caso alcuni entrati nell’area euro e altri no, per raggiungere una conclusione sull’effetto causale dell’euro. La ragione è sempre la stessa: in assenza di un esperimento – i Paesi non hanno aderito all’eurozona “a caso” - variabile omesse possono spiegare il comportamento temporale diverso di due paesi che si distinguono tra di loro per il fatto di essere dentro e fuori l’eurozona.
Giornalisticamente un grafico ha il vantaggio di promettere molto dal punto di vista della comprensione: ti faccio vedere – meglio che con le parole - quel che è successo. Peccato che in macroeconomia gli esperimenti non ci sono e dunque il “che cosa succede prima e dopo l’introduzione dell’euro” non può essere trattato come dimostrazione del legame di causa/effetto.
Vi sono senz’altro altri problemi in questo tipo di analisi, ma la domanda “e le variabili omesse?” dovrebbe diventare la migliore forma di difesa contro chi millanta –per dolo o ignoranza della statistica- di avere dimostrato alcunché con un grafico.
PS: questi ragionamenti sono nati da una discussione su Twitter con Alessandro Guerani e altri, e sono riassunti in #38tweet, che partono qui.
Nessun commento:
Posta un commento