PDA

Visualizza Versione Completa : L'errore standard degli econometrici



(Controcorrente (POL)
22-09-08, 00:56
L'errore standard degli econometrici

di Valerio Filoso (http://www.noisefromamerika.org/index.php/roles/599), 21 Settembre 2008 http://www.noisefromamerika.org/themes/noise/images/print.gif (http://www.noisefromamerika.org/index.php/articoli/1054?theme=print)
Stephen Ziliak (http://faculty.roosevelt.edu/ziliak/) è un econometrico del mercato del lavoro presso la Roosevelt University di Chicago, Deirdre McCloskey (http://deirdremccloskey.org/) insegna economia, storia e inglese alla University of Illinois, a Chicago: esperta di storia economica, di retorica e di metodi quantitativi, da giovane si chiamava Donald, portava i basettoni e giocava a football. Oggi è cattolica, libertaria, femminista e non si separa mai dai suoi barboncini. A partire dagli anni Ottanta hanno incominciato a raccontare il vizio capitale dell'econometria, prima in una serie di articoli (quindici), poi in un volume del 2008 dal titolo Il culto della significatività statistica, il cui sottotitolo recita Lo standard error ci costa posti di lavoro, giustizia e vite. Credo che valga la pena di leggerlo.





La tesi centrale del loro lavoro è che la confusione tra significatività statistica e significatività sostanziale – un errore commesso nella quasi totalità degli studi statistici – comporta una distorsione sistematica, e pericolosa, della ricerca scientifica. Il libro si sviluppa attorno a questa tesi, ma propone molto di più: mostra una nutrita serie di incongruenze e di abusi della pratica statistica che non si limitano all'economia, ma che dilagano anche nella psicologia, nella scienza politica, nella sociologia e, purtroppo, anche nella farmacologia e nella medicina. Gli stessi autori e, ovviamente, anche lo scrivente, ammettono di essere più volte caduti nell’errore di confondere realtà e statistica.
La madre di tutte le incomprensioni risale al dibattito degli anni Trenta tra Ronald A. Fisher e William S. Gossett, quest’ultimo noto sotto lo pseudonimo di Student. Il primo è stato il fondatore della teoria dei test d'ipotesi e l'inventore del p-value, mentre il secondo, durante le sperimentazioni quotidiane sulla qualità dei prodotti della brewery Guinness presso cui lavorava, ha fornito le basi per la teoria degli errori statistici, trasformata poi da Jerzy Neyman ed Egon Pearson in un approccio coerente alla decisione statistica che considera esplicitamente i costi e i benefici che conseguono dall’adozione di determinate ipotesi. I libri di testo elementari presentano la procedura di test d’ipotesi come un blocco coerente di pratiche che ingloba sia l'approccio di Fisher che quello di Neyman-Pearson, ma tra le due visioni dell’inferenza sussistono diversità profonde ed è proprio su queste che insistono gli autori. Per comprendere il nucleo della critica di Ziliak e McCloskey, consideriamo lo stereotipo dell'analisi econometrica così come viene correntemente insegnata e praticata, anche sulle riviste accademiche più prestigiose, tramite un esempio tratto dall'economia. Supponiamo di essere interessati a testare le implicazioni della teoria della Parità dei Poteri d'Acquisto (PPA). Una di queste asserisce che il tasso di cambio reale tra due paesi che commerciano tra di loro tende, nel lungo periodo, a un valore pari a uno. Al fine di testare la rilevanza empirica di questa affermazione, consideriamo il modello statistico

p = a + b (ep*) + u,
dove p è il livello generale dei prezzi interni, a e b sono costanti da stimare, e è il tasso di cambio, p* è il livello dei prezzi esteri e u è un termine di errore gaussiano. Supponiamo di disporre di dati adeguati e stimiamo un modello di regressione con questi numeri. Il risultato del calcolo del parametro b è pari a 0.95.
La procedura che viene normalmente seguita per valutare l’affidabilità del valore ottenuto utilizza il computo del p-value, il quale rappresenta la probabilità che una data statistica assuma il valore effettivamente osservato, supponendo che l'ipotesi nulla H0 sia vera (Borowski e Borwein, The Harper Collins Dictionary of Mathematics, 1991). Nel nostro caso, l’ipotesi nulla H0 consiste nel porre b = 1, che è il valore suggerito dalla teoria della PPA. Il p-value è il più piccolo livello di significatività in corrispondenza del quale l’ipotesi nulla viene rifiutata. Operativamente, se il ricercatore ha scelto a priori come accettabile un livello di errore del primo tipo che risulta maggiore o uguale al valore del p-value calcolato, allora l’ipotesi nulla viene rigettata. Tornando al nostro esempio, poniamo che il valore campionario fornisca un valore del p-value pari a 0.01 e di aver scelto a priori un errore del primo tipo pari a 0.05. Secondo la logica di Fisher, il test indica che i dati non supportano la tesi della PPA perché la differenza tra il valore teorico e quello empirico è statisticamente significativa. Nella maggioranza dei casi questo schema logico induce l’economista a scartare la validità della teoria sulla base della presunta neutralità di una regola di decisione statistica che recita: considera significativi solo i coefficienti che presentano bassi valori del p-value.
La ricetta, tuttavia, non è una macchina della verità, anzi. La teoria della PPA prevede un valore di b pari a 1, ma nulla dice su quanto il valore stimato empiricamente debba essere prossimo a quello teorico affinché la teoria possa considerarsi confermata. Solo una valutazione umana, che tenga in conto il valore effettivo delle ipotesi alternative, è in grado di decidere quanto i dati si discostino dal valore teorico. Un valore di b pari a 0.95 oppure pari a 1.15 potrebbe essere considerato come una conferma della PPA dal punto di vista del governatore di una banca centrale, mentre un valore pari a 0.95 potrebbe indicare a uno speculatore l’esistenza di margini di arbitraggio da cui trarre profitto.
Un test statistico che non confermi l'ipotesi nulla non suggerisce alcunché riguardo alla significatività economica del parametro stimato. Questo, infatti, potrebbe essere di dimensioni talmente ridotte da risultare economicamente irrilevante. La significatività statistica non è né una condizione sufficiente né necessaria per stabilire la significatività economica – ovvero, sostanziale – di un dato parametro. La valutazione dei risultati numerici, per quanto sofisticata possa essere la procedura che li ha generati, è sempre sottoposta al contesto del problema e alla ragionevolezza del ricercatore. Espressioni assolute come il parametro stimato risulta significativo sono prive di valore conoscitivo, perché non rivelano nulla riguardo all'intensità di una data relazione stimata e confondono la significatività statistica con quella sostanziale. Va da sé che solo quest'ultima è di qualche interesse per gli economisti.
Molti dei risultati e degli episodi riportati nello studio di Ziliak e McCloskey sono gustosi e istruttivi. Un esempio sorprendente, scelto tra i tanti. Milton Friedman – che, oltre ad aver contribuito in maniera sostanziale all’avanzamento della causa della libertà e dell’analisi economica, era anche particolarmente dotato nell’uso di metodi quantitativi – durante la guerra lavorava al MIT alla progettazione di nuove leghe metalliche. Secondo i suoi calcoli, la combinazione ottimale avrebbe presentato un tempo di rottura dieci volte superiore a quello delle leghe comunemente impiegate. La chutzpah di Milton era grande perché il fitting statistico dei suoi dati era ottimo. Il risultato pratico? La lega cedette in un terzo del tempo delle altre leghe. Fortunatamente, l’episodio fornì al giovane economista l’opportunità di ripensare il suo approccio allo studio dei dati empirici e di fornirci in seguito studi esemplari nei quali la risposta a quesiti fondamentali della teoria economica è fornita da asserzioni tutt’altro che irrilevanti.
In altri casi, invece, il culto della significatività fisheriana dipende dalla dimenticanza della teoria statistica. Per esempio, è importante tenere a mente che il valore del p-value dipende inversamente dalla quantità dei dati: per ogni campione sufficientemente numeroso, è sempre possibile trovare differenze significative in senso statistico senza che esse implichino alcunché di sostanziale. Anche nel caso della PPA, con una serie di prezzi e di tassi di cambio particolarmente lunga, è sempre possibile rigettare l’ipotesi che b sia uguale a uno, indipendentemente dalla validità della teoria sottostante: questo è l’errore di secondo tipo, ovvero il caso in cui viene respinta come falsa una tesi che in realtà è vera, un’eventualità che viene quasi sempre trascurata. In questo caso l’arbitrageur perde il suo denaro, il governatore della banca centrale incrementa ulteriormente la confusione nella circolazione monetaria, ma l’editor della rivista di economia è soddisfatto perché ha mantenuto alto il suo impact factor. In realtà, una sana diffidenza per i test di tipo fisheriano dovrebbe indurre gli econometrici a frenare gli entusiasmi per coefficienti di regressione dotati di p-value bassi negli studi su dataset di grosse dimensioni, come nel caso dei panel microeconometrici. L’osservazione anche casuale delle riviste di economia applicata mostra che questa cautela è adottata solo di rado.
Se in discussione ci sono per esempio delle vite umane, così come avviene quando si tratta della sperimentazione di farmaci, trascurare l’errore di secondo tipo vuol dire negare a un gruppo di individui un trattamento che potrebbe salvar loro l’esistenza. Tuttavia, se pure l’economia empirica tratta di problemi rilevanti per la vita di soggetti reali, allora gli economisti dovrebbero forse adottare un approccio meno meccanicistico nella valutazione dei risultati empirici e più vicino ai valori effettivamente in gioco.
Qualche lettore penserà che scivoloni di questo tipo sia possibile trovarne solo in riviste accademiche di modesto livello, mentre diventano più rari in riviste con alti rating, ma sbaglierebbe: Ziliak e McCloskey hanno esaminato due decadi dell’American Economic Review e hanno individuato la pervasività degli errori di valutazione e di presentazione dei risultati statistici, anche da parte di scienziati ascritti stabilmente nel gotha dell’econometria e della politica economica. In alcuni lavori non vengono indicate nemmeno le unità di misura delle variabili, il che rende impossibile qualsiasi interpretazione dei risultati. Secondo i nostri autori, anche nomi celebri dell’econometria applicata finiscono nel fondo della classifica della buona pratica statistica: fa una certa impressione trovarci nomi come quelli di Steven Levitt e Daniel Hamermesh, ma di questi tempi inquieta non poco trovarci quello di Ben Bernanke.
Qualche nota marginale, tanto per finire. Il libro è piacevole alla lettura, ma l'enfasi sulle vicende biografiche di Gossett e di Fisher sarebbe forse più adatta a una ricostruzione storica del pensiero statistico che a un saggio sugli errori della comune pratica scientifica. Dalla lunga ricostruzione fornita, Gossett ne viene fuori come un uomo intellettualmente geniale e umanamente adorabile, mentre Fisher come un accademico brillante ma limitato: dopo qualche pagina, il racconto comincia a stancare, anche perché il tono dalla narrazione è eccessivamente retorico e tende a scivolare sia nell'invettiva verso i cattivi Fisher e (Karl) Pearson, colpevoli di scorrettezze accademiche e personali, che nell’agiografia del personaggio Gossett.
Lo scopo del libro è dichiaratamente politico, si tratta cioè di un esercizio di persuasione diretto a modificare le convinzioni e il modus operandi degli econometrici e degli scienziati in generale. Proprio in questa prospettiva, un limite evidente è la mancanza di presentazione formale dell'argomentazione principale sui limiti del test di Fisher, che non compare neppure in appendice. La notoria attenzione di McCloskey per la retorica della persuasione scientifica qui è inspiegabilmente carente, perché impedisce al lettore di apprezzare fino in fondo le rilevanti distinzioni introdotte per via discorsiva. Anche gli esempi proposti non sempre vengono sviluppati a sufficienza: è un peccato, perchè lo scopo del volume dovrebbe essere anche quello di orientare in una direzione più razionale il lavoro statistico e di trasferire quella tacit knowledge che talvolta costituisce la vera essenza della pratica scientifica quotidiana.
Ancora oggi gli statistici aderiscono alternativamente all’approccio di Gossett o a quello di Fisher. Aveva ragione Gossett a mettere in guardia contro l’uso meccanico del p-value? A giudicare dalle affermazioni di Ziliak e McCloskey, ma anche dalla qualità eccezionale della birra Guinness, sembrerebbe proprio di sì.


http://www.noisefromamerika.org/index.php/articles/L%27errore_standard_degli_econometrici#body

Tambourine
14-10-08, 19:39
Sto leggendo un libro della McCloskey

(Controcorrente (POL)
14-10-08, 22:26
Sto leggendo un libro della McCloskeyBravo!

Tambourine
14-10-08, 22:40
Bravo!
"La retorica dell'economia"

Feliks
15-10-08, 01:30
Dato che nelle due ultime settimane sto scoprendo il mondo dell'econometria, me lo sono letto tutto e ho capito tutto.

Quello che posso dire è che il prof. la prima cosa che ha detto è: se vi viene un erre quadro alto significa solo che i dati entrano bene nel modello, non che avete scoperto una legge di natura immutabile e definitiva.

L'econometria non mi sembra una cosa meccanica, piuttosto un utile strumento empirico per testare teorie economiche, per farsene venire di nuove e anche per studiare la storia.

(Controcorrente (POL)
15-10-08, 22:26
Dato che nelle due ultime settimane sto scoprendo il mondo dell'econometria, me lo sono letto tutto e ho capito tutto.

Quello che posso dire è che il prof. la prima cosa che ha detto è: se vi viene un erre quadro alto significa solo che i dati entrano bene nel modello, non che avete scoperto una legge di natura immutabile e definitiva.

L'econometria non mi sembra una cosa meccanica, piuttosto un utile strumento empirico per testare teorie economiche, per farsene venire di nuove e anche per studiare la storia.Bravo!

Feliks
15-10-08, 22:30
Comunque nFA è un buon blog. Quasi mai concordo quello che dicono, ma le cose che trovo scritte sono spesso ben argomentate.

Certo, c'è una dose di narcisismo e supponenza forse eccessiva, che spesso disturba.

(Controcorrente (POL)
15-10-08, 22:36
Comunque nFA è un buon blog. Quasi mai concordo quello che dicono, ma le cose che trovo scritte sono spesso ben argomentate.

Certo, c'è una dose di narcisismo e supponenza forse eccessiva, che spesso disturba.Quello più supponente è Boldrin, d'altra parte mi sembra anche quello più liberale pertanto...

Daje comunque ormai fai parte della nostra cricca liberista, son sicuro che sei d'accordo con i redattori di nFA

Feliks
15-10-08, 22:38
Quello più supponente è Boldrin, d'altra parte mi sembra anche quello più liberale pertanto...

Daje comunque ormai fai parte della nostra cricca liberista, son sicuro che sei d'accordo con i redattori di nFA
no, e l'ho anche scritto :D

(Controcorrente (POL)
15-10-08, 22:41
no, e l'ho anche scritto :DSì ma secondo me menti, non riesci ad accettare l'idea di difendere il libero mercato...:D

Feliks
16-10-08, 01:26
Sì ma secondo me menti, non riesci ad accettare l'idea di difendere il libero mercato...:D
Lo difendo perché è una legge di natura, così come è perfettamente naturale la volontà dell'uomo di controllare la natura.

(Controcorrente (POL)
16-10-08, 17:23
Lo difendo perché è una legge di natura, così come è perfettamente naturale la volontà dell'uomo di controllare la natura.Quindi?

Feliks
16-10-08, 18:24
Quindi?
quindi difendo la natura dagli attacchi dell'uomo ma riconosco all'uomo il diritto all'autodifesa

(Controcorrente (POL)
16-10-08, 18:30
quindi difendo la natura dagli attacchi dell'uomo ma riconosco all'uomo il diritto all'autodifesanon credo ci sia molto da cui difendersi....