Rivista il mulino

Content Section

Central Section

Piergiorgio Corbetta Ancora una volta i sondaggi hanno fallito. Già avevano fallito. Ma questa volta il flop è stato clamoroso (cfr. le due tabelle di p. 832). I sondaggi sulle intenzioni di voto davano, prima del loro embargo a 15 giorni dalla data delle elezioni, un Partito democratico al 33% e un Movimento 5 Stelle al 25%. Ma poi si è sussurrato che le ultime rilevazioni clandestine indicassero un Pd fermo al 33% e un M5S in grande risalita, c’era chi diceva a un’incollatura dal Pd. Il risultato delle elezioni è noto: quasi 20 punti percentuali di distanza fra i due (40,8% contro 21,2%).

Questo smacco fa seguito a quello che si è verificato in occasione delle elezioni politiche del 2013, quando la coalizione di centrosinistra ha vinto per un capello contro quella di centrodestra (29,6% contro 29,2%, scarto di 125.000 voti) e il Movimento 5 Stelle è arrivato al 25,6%; mentre i sondaggi prevedevano uno scarto a vantaggio del centrosinistra di 6-7 punti percentuali e un voto al M5S sotto alla soglia del 20%.

Come giustificare queste discrepanze fra previsione e realtà? E come non rimanere impressionati dalla «concordanza nell’errore» da parte di tutti gli istituti (si vedano di nuovo le due tabelle)? È chiaro a questo punto che persino le chiacchiere da bar potrebbero fare di meglio. La risposta comunque, nella sua estrema sintesi, è semplice e può essere riassunta in tre punti: a) la dimensione del campione, b) la rappresentatività del campione, c) gli «aggiustamenti» dei sondaggisti.

La dimensione del campione. Da anni, tutti i lunedì sera, il telegiornale diretto da Enrico Mentana su La7 ci affligge con i suoi sondaggi elettorali, effettuati dalla società Emg. In questa trasmissione vengono indicati, oltre alle percentuali di voto per i partiti, anche gli spostamenti voto fra una settimana all’altra, fino alla sottigliezza di spostamenti di 0,1 punti percentuali. Ora poiché – come dichiarato dallo stesso istituto di sondaggi sul sito www.sondaggipoliticoelettorali.it – l’errore di queste stime (in realtà non conoscibile e certamente maggiore) è di ± 3,1 punti percentuali (fra i tanti scegliamo il telegiornale del 17.6.2013: cfr. G. Gasperoni, Indagini campionarie su temi politici ed elettorali, in G. Marbach, Le ricerche di mercato negli anni della discontinuità, Utet, 2014), è chiaro che una variazione così fine di 0,1 punti percentuali non può essere colta da uno strumento che contempla un errore di 3,1 punti. Inoltre, venendo al problema della esiguità del campione, va considerato che – essendo in questo caso il campione costituito da 1.000 casi e essendoci il 47,9% di dichiarazioni di astensione, indecisione o scheda bianca, come risulta sempre dal sito sopra menzionato e dalla tabella presentata nel telegiornale – le persone che dichiarano il voto sono 521; per cui la variazione di 0,1 punti percentuali sul voto precedente corrisponde allo spostamento di nemmeno un elettore (0,5, cioè mezza persona!).

La rappresentatività del campione. I sondaggi elettorali sono per la massima parte (oltre 80%, cfr. Gasperoni, cit.) condotti attraverso interviste telefoniche. In queste il tasso di rifiuti è altissimo. Prendiamo per esempio l’ultimo sondaggio precedente alle elezioni europee, fatto dalla società Ipsos e pubblicato sul «Corriere della Sera» il 9.5.2014: nella nota informativa (obbligatoria per legge) riportata sul giornale leggiamo che sono state realizzate 998 interviste su 10.513 contatti: vale a dire 9% di risposte e 91% di mancate interviste, a seguito – nella quasi totalità – di rifiuto a rispondere da parte della persona interpellata. Inoltre, se l’intervista è fatta sul telefono fisso (come avviane per la stragrande maggioranza delle interviste telefoniche), va considerato che ormai nel nostro Paese la popolazione sopra i 18 anni non presente negli elenchi telefonici utilizzati (in quanto priva di telefono fisso familiare o con numero telefonico non pubblicato) ammonta al 40% di tutti gli individui; con punte superiori al 50% per alcuni segmenti, come i giovani fra 31-40 anni che non compaiono negli elenchi per il 57% (T. Poggio e M. Callegaro, Italy, in Telephone Surveys in Europe: Research and Practice, a cura di S. Hader, M. Hader e N. Kuhne, Springer, 2012). E si tratta di numeri destinati a crescere.

Questi processi di selezione introducono gravi distorsioni nel campione. Coloro che rifiutano non costituiscono un campione casuale dei contattati: sono mediamente diversi per età, istruzione, genere, certamente anche per orientamento politico (es. più persone di destra e più persone di orientamento politico diverso da quello dominante nel loro contesto sociale). Analoghe considerazioni sugli effetti distorsivi valgono per i non possessori di telefono fisso.

Gli «aggiustamenti» dei sondaggisti. Di fronte a questa situazione che cosa fanno le società di sondaggio? In primo luogo «ponderano» i dati, cioè a dire aggiustano il campione attribuendo «pesi» ai casi sulla base di variabili delle quali è nota la distribuzione nella popolazione (in genere: sesso, età, istruzione), al fine di ripristinare le proporzioni teoriche. Se per esempio le donne anziane con basso titolo di studio sono nel campione il 10% e invece dovrebbero essere (sulla base di dati censuari) il 15%, ogni caso di «donna anziana non istruita» viene fatto pesare 1,5 invece di 1. Questa operazione è semplice e diretta per le variabili socio-demografiche, ma diventa assai problematica per le variabili politiche. Infatti la distorsione del campione è di norma politicamente connotata: per esempio negli anni Cinquanta della Prima Repubblica c’era maggiore reticenza fra gli elettori del Pci; successivamente, a partire dagli anni Settanta, è subentrata una maggiore ritrosia a dichiarare il voto da parte degli elettori Dc. Nella Seconda Repubblica appare una consolidata minore disponibilità a dichiarare il proprio voto da parte di elettori di centrodestra.

Occorre dunque ponderare i casi sulla base di una variabile nota di comportamento politico dell’intera popolazione. L’unica disponibile è il risultato elettorale passato. Si chiede all’intervistato come ha votato nell’elezione precedente, e di nuovo si ponderano i dati facendo coincidere il risultato elettorale che emerge dalle interviste con quello reale. Procedura che però non è applicabile per chi non ha votato in passato (ad esempio i neoelettori) o per chi non ricorda o ricorda male sbagliando l’indicazione (caso più frequente di quanto non si pensi).

Ponderando estendiamo ai non rispondenti le caratteristiche socio-demografiche e politiche dei rispondenti. Ma è corretto? Se per esempio diamo un peso 1,5 alle donne anziane presenti nel campione intervistato in quanto ne abbiamo intervistate in numero inferiore alla loro presenza nell’elettorato, con questa ponderazione estendiamo a quelle che non abbiamo intervistato le caratteristiche di quelle intervistate. Ma le signore anziane che hanno accettato l’intervista sono magari più «arzille», più informate di politica, forse più «di sinistra» della media delle coetanee. In questo modo, ponderando per età «aggiustiamo» il campione su questa variabile, ma nello stesso tempo lo «deformiamo» per coinvolgimento politico. In altre parole, chi entra nel campione è diverso da chi ne resta fuori sotto molteplici profili, non solo quelli che correggiamo con la ponderazione.

I sondaggisti sanno per esperienza che la ponderazione non basta per avvicinare le caratteristiche politiche del campione a quelle dalla popolazione. Allora cosa fanno? E qui si inserisce il passaggio più problematico: intervengono con aggiustamenti dei risultati su base fortemente soggettiva.

Per esempio – con riferimento alle recenti elezioni europee – Luca Ricolfi scrive che, facendo tesoro della débâcle del 2013 (sopravvalutazione del Pd di Bersani sottovalutazione del M5S di Grillo), dai sondaggisti «il risultato del Pd è stato più o meno scientemente addomesticato verso il basso, e quello di Grillo addomesticato verso l’alto» («La Stampa», 27.5.2014). Sulla stessa falsariga Roberto Weber, uno dei più esperti sondaggisti, rivela: «Non è vero che nessuno si aspettava questi risultati, direi piuttosto che nessuno si è arrischiato a darli… nelle ultime rilevazioni avevamo anche noi il Pd al 40%, ma l’errore delle politiche ci ha spinto a essere prudenti, temendo di sovrastimarlo come l’anno scorso» («la Repubblica», 27.5.2014). Più esplicita di tutti è la testimonianza di Paolo Natale, collaboratore di un’altra importante società di sondaggi, il quale ha riferito, in un convegno sul tema tenuto all’Università Statale di Milano dopo il voto del 25 maggio 2014, che la sua società aveva ottenuto risultati per il Pd del 40% (quindi sotto a quello reale di soli 0,8 punti percentuali) e per il M5S e FI aveva fatto previsioni praticamente perfette (–0,1 e –0,5 punti percentuali rispetto al dato reale). Ma questi dati sono stati «aggiustati» in quanto ritenuti poco realistici.

Si tratta di rivelazioni in una certa misura sconcertanti. Veniamo a sapere ormai in maniera quasi ufficiale che il pollster introduce delle correzioni veramente rilevanti (si pensi al Pd: sono stati tolti al dato effettivo 7 punti percentuali facendo scendere la stima dal 40 al 33%) al di fuori di qualsiasi giustificazione scientifica o scientificamente controllabile, anche in termini di ragionamento probabilistico.

La linea difensiva dei sondaggisti si è articolata in varie direzioni, ma l’argomentazione fondamentale è sempre la stessa: gli italiani decidono all’ultimo momento (varie giustificazioni sociologiche vengono addotte: voto «liquido», crollo delle ideologie, scomparsa dei partiti tradizionali stabilizzatori del voto, disaffezione politica, cambiamento continuo della proposta politica ecc.). E quindi – in questa situazione di fluidità e indecisione – la «colpa» degli errori andrebbe ricondotta alla legge che impedisce di fare sondaggi nelle ultime due settimane prima del voto.

Giustificazione che però svanisce se facciamo due riflessioni. Gli stessi errori sono stati fatti dai sondaggi «segreti» negli ultimi giorni prima del voto (si veda la tabella 2). E soprattutto se consideriamo il fatto che gli stessi errori sono stati fatti dagli exit polls: cioè, lo ricordiamo, da interviste che vengono fatte «all’uscita dei seggi», presentando a un campione di elettori un fac-simile della scheda elettorale, un’urna, e chiedendo loro di replicare il voto appena dato. Evidentemente qui non può aversi la distorsione dell’imprevedibilità del volo last minute, trattandosi di interviste effettuate dopo il voto. Gli unici exit polls fatti nel 2014, quelli della società Emg per conto della rete televisiva La7, hanno previsto – sulla base di un campione imponente di 7000 intervistati – il 35,5% per il Pd e il 25,5% per il M5S: 10 punti di distanza insomma fra i due, invece dei 20 reali. Stesso flop si ebbe alle elezioni politiche del 2013.

Si tratta sempre di argomentazioni che imputano il fallimento non a errori sul piano metodologico della rilevazione del voto, ma su quello della espressione del voto. Scrive Nando Pagnocelli, una delle voci più autorevoli in questo campo: «Le ragioni metodologiche c’entrano poco. I principali istituti demoscopici da tempo diversificano i metodi di rilevazione, alle interviste realizzate selezionando numeri di telefono fissi si aggiungono quelle realizzate a possessori di solo cellulare, talvolta le interviste telefoniche vengono integrate da quelle online per poter raggiungere i segmenti più dinamici […] i modelli di ponderazione sono costantemente affinati» («Corriere della Sera», 30.5.2014). È proprio in questa battuta finale che potrebbe dare la chiave di lettura dell’intera vicenda: i modelli di ponderazione.

Le principali trasformazioni oggettive esterne che hanno intaccato alla radice i tradizionali metodi di fare i sondaggi sono due. È venuto meno quel solido punto di riferimento sulla popolazione che vent’anni fa era rappresentato dagli elenchi dei possessori di telefono fisso, e l’integrazione con possessori di cellulari o interviste via internet è difficilissima e esposta a un ampio margine di arbitrarietà. In secondo luogo abbiamo l’enormità dei rifiuti, fenomeno anche questo che è venuto accentuandosi nel corso del tempo. Questi due fatti si sommano nel rendere qualsiasi campione ben lontano dall’essere rappresentativo, dal riprodurre cioè in piccolo le stesse caratteristiche della popolazione. Le incertezze sono tali che l’elemento cruciale della previsione non è il dato raccolto, ma la procedura di aggiustamento dello stesso, e cioè quei «modelli di ponderazione» sopra menzionati. Modelli dipendenti dalla soggettività del ricercatore più che da fondamenti statistici.

A monte, dunque, c’è il problema degli elenchi telefonici e dei rifiuti. A valle l’arbitrio dell’aggiustamento dei dati. A ciò si aggiunge il problema della proliferazione di micro sondaggi super economici. Fare bene un sondaggio (campione di alcune migliaia di casi, forte riduzione dei rifiuti) è un’impresa impegnativa e assai costosa (l’unico che ci ha veramente investito è stato Berlusconi). Viceversa i mass media sono divoratori di sondaggi, ne hanno bisogno di frequentissimi, per rispondere alle domande ansiose da parte del mondo politico sull’evoluzione dell’opinione pubblica nel corso della campagna elettorale. Inoltre la loro utilizzazione si limita a un articolo di giornale o al flash di pochi minuti in un talk show, per i quali l’investimento economico non può essere troppo elevato. Da ciò il proliferare di una massa imponente di sondaggi low cost, normalmente sui 1.000 casi (che abbiamo visto essere assolutamente incapaci di stimare gli spostamenti di voto fra i partiti fra un sondaggio e l’altro), spesso prodotti da soggetti privi di qualificazione (pochissime società di sondaggio hanno un loro centro di interviste, quasi tutti si appoggiano a call center esterni). Giancarlo Gasperoni ha calcolato che nei due mesi precedenti le elezioni politiche del febbraio 2013 ci sono stati 5 sondaggi pubblicati al giorno!

La mia conclusione è che il sondaggio telefonico di previsione del voto è uno strumento oggi irrecuperabile sotto il profilo scientifico (o comunque anche solo dal punto di vista di una ragionevole attendibilità di buon senso comune). La strada che le società di sondaggio percorreranno è probabilmente quella dei panel online, gruppi di persone che accettano di partecipare tramite la connessione internet a inchieste telematiche per un certo periodo di tempo. Lo strumento permetterebbe di cogliere le linee di tendenza, gli spostamenti di umore politico in corso, sulla base di un campione «controllato» di cittadini. Ma si tratta di uno strumento non ancora maturo nel nostro Paese, per la modesta diffusione di internet e la differente consuetudine con lo strumento da parte dei vari segmenti della popolazione.

Ciononostante i sondaggi tradizionali possono essere strumenti utili di conoscenza sociale quando si passi dall’analisi di una sola variabile (analisi monovariata) – e cioè il voto – alle relazioni fra variabili (analisi bivariata e multivariata). Se i sondaggi sottostimano il voto per Forza Italia per una maggiore reticenza dell’elettore di centrodestra, è presumibile che questa reticenza sia all’incirca egualmente distribuita in tutto il suo elettorato. Quindi il profilo sociale dell’elettore di Forza Italia non ne risulterà alterato. E se Forza Italia prende più voti fra le casalinghe rispetto alle donne che lavorano o fra gli anziani piuttosto che fra i giovani, questo fatto emergerà correttamente dal nostro sondaggio, anche se – ripeto – il voto a Forza Italia è complessivamente sottostimato. Da questo punto di vista possiamo concordare con Pagnoncelli quando scrive che «la politica non può fare a meno dei sondaggi per conoscere i propri elettori, per conquistarne di nuovi, per capire quali bisogni esprimono, per misurarne il consenso» («Corriere della Sera», 30.5.2014).

TAB. 1. Intenzioni di voto secondo gli ultimi sondaggi prima dell’embargo

Pd

M5S

FI

Data realizzazione

Data diffusione

Epoké

30,2

22,6

16,3

6-8/5

9/5

Ipr

32,7

25,0

18,8

9/5

9/5

Emg

33,2

25,0

19,7

7-8/5

9/5

Swg

34,8

24,0

19,1

5-7/5

9/5

Ipsos

33,8

23,0

19,5

6-7/5

9/5

Ispo

34,9

23,7

18,1

5/5

9/5

Euromedia

31,4

25,0

20,9

7/5

8/5

Lorien

34,0

23,0

19,0

4/5

9/5

Scenaripolitici

29,8

27,5

17,5

28/4-1/5

6/5

Demos&Pi

32,8

22,0

17,5

5-7/5

9/5

Datamedia

32,0

26,0

20,0

5/5

7/5

Tecné

29,8

25,7

23,2

6/5

8/5

Piepoli

34,0

25,0

20,0

5/5

8/5

Demopolis

33,5

26,4

17,5

6-7/5

7/5

 
 
 
 
 
 
Fonte: Documenti pubblicati in www.sondaggipoliticoelettorali.it
TAB. 2. Intenzioni di voto secondo gli ultimi sondaggi non ufficialmente pubblicati

Pd

M5S

FI

Ipsos

32

26

18

Euromedia

30,5

29,5

21

Piepoli

32

28

dato mancante

IPR

31

26

18

Tecné

31

29

21

Datamedia

31

27,5

18

Swg

34

26

17,5

Oss. Nord-est

32,9

28,2

17,6

 
 
 
 
Fonte: www.gadlerner.it/2014/05/24/gli-ultimi-sondaggi-segreti-e-il-testa-a-testa-tra-renzi-e-grillo, 24 maggio 2014.

Mario Callegaro Il complesso sistema dei partiti in Italia rende impegnativo per i sondaggisti fornire risultati vicini al voto «reale». In questo intervento parto dalle critiche di Piergiorgio Corbetta e propongo alcune soluzioni basate su successi di Paesi stranieri, come nel caso degli Stati Uniti e Inghilterra. Queste soluzioni, se applicate in Italia, possono aumentare l’attendibilità dei sondaggi ma non senza maggiori investimenti in termini economici e di conoscenze statistiche e metodologiche.

In linea di massima concordo con le osservazioni di Corbetta, ma propongo altre cause per il cosiddetto flop dei sondaggi per le elezioni del 25 maggio scorso.

Dimensione del campione. Anche negli Stati Uniti molti istituti usano ancora campioni di 1.000 intervistati (per esempio l’istituto Ibd/Tipp, il più preciso in assoluto, usava campioni di meno di mille casi), anche se gli istituti «storici» (come Gallup e Pew Research Center) arrivano anche a 2.500-3.000 rispondenti. Il problema dell’esiguità del campione, però, è aggravato da un secondo fatto, quello degli elettori potenziali.

Selezionare e modellare gli elettori potenziali. Alle elezioni europee del 25 maggio il 58,7% degli elettori italiani è andato a votare. Ciò vuol dire che in un campione probabilistico si sarebbero dovuti incontrare circa quattro rispondenti su dieci che «molto probabilmente» non sarebbero andati a votare.

Un esame dei questionari riportati sul sito sondaggipoliticoelettorali.it induce a pensare che i sondaggisti italiani non usino domande per individuare gli elettori probabili, cioè quei cittadini che molto probabilmente si recheranno al seggio. Negli Stati Uniti, per esempio, l’individuazione degli elettori probabili è una fase centrale dei sondaggi pre-elettorali ed è oggetto di molti dibattiti. Ogni istituto ha la sua maniera di porre domande per stimare la probabilità che l’intervistato vada a votare Per esempio l’istituto Rand chiede a ogni suo intervistato di indicare con un numero da 0 a 100 la probabilità di andare a votare (T.L. Gutsche, A. Kapteyn, E. Meijer e B. Weerman, The Rand continuous. 2012, Presidential election poll, «Public Opinion Quarterly», 78, 2014, pp. 233–254).

Questa probabilità è usata per pesare i dati del campione, in modo che l’opinione di chi ha una probabilità bassa incida meno sul risultato finale. Ciò vuol dire anche che nel campione usato per le previsioni chi quasi certamente non andrà a votare è escluso. In linea di massima, per ottenere un campione di 1.000 elettori probabili si devono intervistare almeno 1.400-1.500 persone. I vari modelli di elettori potenziali possono essere facilmente verificati comparando la percentuale di votanti predetta dal modello calcolato usando il sondaggio con il dato ufficiale. Purtroppo questa verifica si può solo fare dopo le elezioni, ma ciò che si apprende può essere usato per le elezioni successive.

La rappresentatività del campione. La rappresentatività del campione ha tre aspetti: il tasso di risposta, l’errore di copertura e, nel caso dell’uso di liste telefoniche, la percentuale di numeri non in elenco.

Nel primo caso si parla di errore potenziale di non risposta. Anche negli Stati Uniti i tassi di risposta ai sondaggi telefonici si aggirano intorno all’8-9%. Ciò non pare avere un effetto negativo sulle previsioni, almeno a giudicare dall’errore medio dei sondaggisti americani che sono ricorsi a indagini telefoniche.

Ciò che più preoccupa è invece l’errore di copertura, cioè il mancato raggiungimento di una parte della popolazione votante perché il campionamento è fatto solo su numeri di telefoni fissi. Nelle elezioni del 2012 quasi tutti i sondaggisti americani hanno chiamato anche la cosiddetta popolazione «cell-phone only», ovvero chi è raggiungibile sono mediante la telefonia mobile. In Italia, secondo i più recenti risultati dell’indagine Multiscopo, il 32% degli italiani non ha un telefono fisso a casa, per cui probabilmente è raggiungibile via cellulare (E. Sala e R. Lillini, The impact of unlisted and no-landline respondents on non-coverage bias. The Italian case, Iser Working paper, 16/2014).

Altro elemento preoccupante è che i sondaggisti usano ancora le Pagine Bianche come base per il campione. Questo metodo da un lato semplifica il tutto e riduce i costi, ma dall’altro pone un ulteriore problema: sulle Pagine Bianche non sono presenti i numeri fuori elenco, stimati al 18%.

Queste due popolazioni (chi non ha telefono fisso e chi lo ha, ma non è in elenco) hanno delle caratteristiche socio-demografiche e di opinione diverse da chi ha un numero di telefono sull’elenco. Per esempio, chi non ha il telefono fisso è molto meno interessato e informato sulla politica di chi ha un telefono fisso ma è fuori elenco. I valori massimi di interesse e di informazione politica si ottengono da chi ha un telefono fisso ed ha il numero sulle Pagine Bianche.

In relazione alla rappresentatività dei campioni abbiamo quindi tre problemi che si sommano: basso tasso di risposta, non copertura nel caso di abitazioni solo raggiungibili via cellulare e mancata copertura di chi è fuori elenco. Ritornando all’analisi di Sala e Lillini, se si usano solo liste di campionamento da numeri telefonici fissi si vanno a intervistare le persone più interessate e più informate sulla politica, che sicuramente non sono un campione rappresentativo degli elettori italiani.

Gli aggiustamenti dei sondaggisti. Uno dei temi meno documentati è il fatto che ogni istituito usa un sistema «interno», di solito coperto da riservatezza, per ponderare i dati, tra cui il dato del voto precedente. Alcuni istituti sono un po’ più trasparenti di altri nel fornire informazioni sui metodi di ponderazione (cfr. Pew Center for the People and the Press, Obama gains edge in campaign’s final days, 4.11.2012). In Italia, dato che i movimenti di voto cambiano molto da anno ad anno, è più difficile usare dati «storici» per modellare i risultati dei sondaggi, ma questo non impedisce di provare vari modelli una volta che i dati ufficiali sono usciti. Da questo «esercizio metodologico» si possono trarre conclusioni da utilizzare per i sondaggi successivi

I sondaggi fatti ma non pubblicati a causa dell’embargo. Più ci si avvicina al voto, più gli elettori indecisi si convincono e scelgono il partito per cui votare. Per questo motivo i risultati dei sondaggi pre-elettorali in generale sono più precisi a pochi giorni di distanza dal voto. Purtroppo i sondaggi pre-elettorali italiani fatti durante il periodo di divieto di pubblicare i loro esiti non sembrano migliorare di molto la differenza tra voto e sondaggio sia le ultime elezioni – come vediamo dalle tabelle allegate – sia per le precedenti (M. Callegaro e G. Gasperoni, Accuracy of pre-election polls for the 2006 Italian parliamentary election: Too close to call, in «International Journal of Public Opinion Research», 20, 2008, pp. 148–170). Quindi non si può citare l’embargo come unica causa della maggiore imprecisione dei sondaggi italiani.

Il fenomeno della diffusione pubblica dei sondaggi e dei siti web «aggregatori». Un fenomeno relativamente nuovo e dovuto a internet è la presenza di siti web dove i vari sondaggi sono aggregati in tabelle e comparati uno con l’altro. In Italia il gioco è ancora più facile dato che per legge ogni sondaggio deve essere diffuso sul sito sondaggipoliticoelettorali.it. Questo fenomeno porta i sondaggisti a confrontarsi l’uno con l’altro e ad avere sempre dei valori guida per valutare i loro risultati prima di rilasciarli pubblicamente. Questo nuovo sistema porta involontariamente a dubitare circa la validità dei propri sondaggi, se differiscono di molto dalla media. Come disse Arnaldo Ferrari Nasi: «Con margini di errori cosi alti, i sondaggisti finiscono per sentirsi o guardarsi l’un l’altro, perché è sempre meglio sbagliare tutti insieme che prendere una cantonata da soli» («Libero», 27.5.2014).

I sondaggi online su web panel non probabilistici. Non tutti i sondaggi vendono fatti con indagini telefoniche. In Paesi come gli Stati Uniti e l’Inghilterra, per esempio, istituti come YouGov hanno azzeccato i risultati con web panel non probabilistici. I web panel non probabilistici sono formati da rispondenti preselezionati che hanno accettato di partecipare a un panel online e rispondere a questionari di varia natura alcune volte al mese. Il reclutamento dei partecipanti al panel è di carattere non probabilistico, come si dice, in quanto ha carattere volontario. Un altro problema dei panel online è che non contengono persone che non hanno accesso a internet, salvo poche eccezioni (cap. I, in M. Callegaro, R.P. Baker, J. Bethlehem, A.S. Göritz, J.A. Krosnick e P.J. Lavrakas, Online panel research. A data quality perspective, Wiley, 2014).

Com’è possibile, dunque, prevedere i risultati delle elezioni quando i partecipanti del panel sono autoselezionati e chi non è online non viene intervistato? La capacità predittiva dei sondaggi basati su panel web non probabilistici è basata su due fattori: il fatto che i sondaggisti possono sempre controllare nei siti aggregatori i risultati delle indagini pre-elettorali telefoniche, che quindi fanno da guida ai risultati ottenuti del loro panel, e il fatto che questi dati vengono altamente «aggiustati» con modelli statistici. (cap. II, ibidem) Per questi due motivi, la «bravura» dei sondaggisti che usano web panel è nella parte del modello e dell’esperienza con il proprio panel.

È possibile azzeccare i sondaggi in Italia? Il mestiere del sondaggista e ricercatore sociale sta diventando sempre più complesso. Solo pochi anni fa era possibile ottenere un campione rappresentativo facilmente e a basso costo usando le Pagine Bianche come lista di campionamento e ottenendo tassi di riposta decenti. Ora molti italiani non sono in elenco o sono raggiungibili solo al cellulare. Il moderno stile di vita e l’aumento del numero di sondaggi sono indicati come fattori che contribuiscono a un continuo abbassamento del tasso di risposta in tutti i Paesi industrializzati. I sondaggi pre-elettorali sono unici in quanto vengono comparati con il valore ufficiale del voto politico, il che succede raramente con altri tipi di inchieste campionarie.

Detto tutto questo e basandoci sui successi stranieri (per motivi di spazio non ho potuto riassumere l’accuratezza di altri Paesi come la Francia o la Germania, per esempio) sottolineo alcune proposte di natura metodologica che posso essere applicate.

1) Abbandonare definitivamente l’uso delle Pagine Bianche come lista di campionamento e ricorrere esclusivamente al Random digit dialing (Rdd) per numeri fissi e cellulari. L’Rdd consiste nella generazione di recapiti telefonici casuali basati sui prefissi telefonici esistenti. Stesso discorso per il Rdd di telefoni cellulari. Per esempio l’Istituto Gallup (2012 Presidential election polling review, 4.6.2013) ha riconosciuto che uno dei motivi (tra i tanti) per cui non ha correttamente predetto il risultato finale (davano Romney al 49%, Obama al 48% e gli indecisi al 3%, quando Obama ha vinto le elezioni con il 51% e Romney ha ottenuto il 47%) è stato quello di usare l’elenco telefonico come lista di campionamento per i telefoni fissi al fine di risparmiare sul costo delle interviste. Ora sono «ritornati» a fare Rdd.

2) Studiare attentamente e rivedere i questionari aggiungendo domande per filtrare e pesare correttamente gli elettori potenziali. Dato che oramai una quota oscillate tra il 25 e il 40% circa degli italiani non va a votare, è molto importante sapere per ogni intervistato in che misura l’intenzione di voto si tradurrà in un comportamento effettivo e quindi avvalersi di modelli di likely voters, come si fa all’estero (cfr. Gasperoni, Indagini campionarie su temi politici ed elettorali, cit.).

3) Sperimentare spesso e continuare ad aggiustare i modelli di ponderazione dei dati. Con una situazione politica fluida come in Italia, è molto importante continuare la sperimentazione metodologica al fine di migliorare i sondaggi.

4) Aumentare la numerosità campionaria. In questo modo si diminuisce l’errore del campione e si ottengono risultati più stabili.

5) Cercare di evitare «l’effetto branco» dei sondaggisti. Alcune volte si paga un prezzo alto, come ha fatto il prestigioso istituto Gallup nel 2012.

Tutti questi suggerimenti hanno un comune denominatore: il costo. Per esempio, cambiare il sistema di campionamento da liste di numeri telefonici delle Pagine Bianche a Rdd e congiuntamente aggiungere telefoni cellulari al campione ha un costo non banale. Rdd genera molti numeri non validi o di imprese, per cui aumentano i costi e i tempi di raccolta dati poiché molti numeri generati si devono scartare. Usare modelli di elettori probabili aumenta la lunghezza del questionario e si rendono necessarie più interviste, altro fattore che incide sul costo. Ci vogliono anche avanzate conoscenze statistiche e metodologiche per implementare Rdd e «aggiustare» i dati degli elettori probabili.

In conclusione, condurre sondaggi attendibili diventa sempre più costoso e sempre più tecnico. Forse un suggerimento finale è quello di fare meno sondaggi, farli con campioni più numerosi e farli meglio, usando Rdd su fissi e cellulari e tenendo conto degli elettori potenziali.