lundi 28 mars 2011

Statistiques


J'adore les périodes électorales. Ben oui quoi, c'est marrant de voir tout le monde s'écharper, tout le monde tirer à boulet rouge, sans savoir exactement où ("Oups, c'était mon pied là", C. Guéant). Et le plus drôle dans le tout, quand on a fait un peu de stats, c'est d'entendre tout ce qu'ils en disent, tout ce qu'ils en concluent. Enfin, drôle... Moi ça me fait bondir et pester, mais vu que je suis un grand cynique (ouais, 190 cm, c'est grand), ça me fait rire. Mais pourquoi donc ?

Alors ils ont commencé à s'amuser pendant la campagne. Je crois que la première à tirer, ça a été Valérie Pécresse avec son "30%+58%=88%". Le Petit Journal a débriefé, mais j'ai vraiment trouvé que c'était mal fait. Inviter un professeur de mathématiques pour expliquer, et ensuite dire "si t'as pas compris, t'es con", c'est au mieux ridicule, au pire contre-productif. En fait, elle disait que le département (de gauche) avait augmenté ses impôts de 30% et la région (de gauche) de 58%. Donc de 88% ! Rendez-vous compte ! En fait, si on prend les deux impôts en base 100, on payait le départemental 100€ et maintenant 130€, et le régional était de 100€ et passe à 158€. Donc en tout on passe de 200€ à 288€. Ce qui fait une multiplication par 1,44. Donc une augmentation de 44%. Bon, on a compris.

Puis après, il y a des transfuges de l'institut BVA qui ont sorti des sondages (Harris pour ne pas les nommer). Alors je ne sais plus si je l'ai déjà dit, mais avant de lire les résultats d'un sondage, les deux choses les plus importantes, c'est de lire la question posée, et regarder l'institut et la correction. En théorie des sondages (il y a une littérature pas possible là dessus, je vous invite à y jeter un coup d’œil), on nous dit que la principale tâche d'un sondeur, c'est de créer une question suivant l'information que nous souhaitons obtenir. La même "question" de base peut donner des résultats différents selon la question du sondeurs (l'exemple récent, c'était "Êtes-vous favorable à la poursuite en justice d'individus ayant volé un bien via un outil technologique ?" pour un institut contre "Comprenez-vous que la libre utilisation d'Internet puisse avoir des répercussions pénales" pour un autre, la question de base étant "Pour ou contre HADOPI ?"). Donc lisez la question. Ensuite on nous dit que les résultats sont forcément biaisés. Des répondants peuvent être mal (ou bien) lunés ce jour-là, ils peuvent répondre au hasard, ou encore mieux s'amuser à être absurde, etc... Je ne vous révèle pas lesquels, mais les instituts ont des méthodes pour détecter les réponses aberrantes, on enlève donc un biais. L'exemple parfait est le vote Front National.  En effet, vous tomberez en sondant sur des gens ayant "honte" de dire qu'ils votent FN pour la bonne raison que la bien bien-pensance nous dit de tous les côtés que c'est mal (et je ne ferais aucun jugement sur ce dernier point même si vous devez vous douter de mon avis). Et d'autres répondront dans l'instinct de l'instant, parce qu'ils sont énervés de tout ces gros cons de politicards, ou parce que le chien des voisins aboie trop fort, etc... D'autres enfin, ont un raisonnement cynique et vous diront qu'ils voteront FN alors qu'en fait c'était juste un raisonnement instantané (vous trouverez tout un tas d'autres raisons dans la littérature sus-évoquée). Et non, ces types de réponses ne se compensent pas, ce serait trop beau. Et ça marche pour toute une flopée de questions. Donc il faut corriger. Et là, pour l'avoir vu je vous prie de me croire sur parole, et si vous ne me croyez pas cherchez un peu vous vous rendrez compte que c'est vrai, vous tombez sur le secret le mieux gardé de chaque institut : la méthode de correction. Le biais estimé. Le jour où quelqu'un trouvera une manière empirique de calculer ce biais, il est milliardaire avant de s'en rendre compte. Donc le sondage Harris qui nous montrait le FN à 25% ou un truc du genre, il est un peu bidon. Tout d'abord parce que c'est un sondage internet, donc on vise une population qui est majoritairement dépolitisée et/ou abstentionniste, et qu'on se prive de tout une population qui n'y a pas accès (et il y en a, pour le moment, près de 30% en France, ce qui, avouons-le, est largement significatif). Alors on pourrait se dire "Ah mais voilà à quoi sert la correction !". Ouais ben nan. Enfin si. Cela devrait servir dans ce cas. Manque de bol, cet institut, "puriste" comme il se nomme, n'applique aucune correction. Ai-je besoin d'aller plus loin ? Bidon. A noter aussi que ce n'est pas parce que la méthode est bidon que le résultat l'est, mais que l'interpréter, c'est prendre un risque non négligeable de dire des conneries.

Ensuite on a notre nouveau ministre de l'Intérieur qui a fait des siennes. 69% des français approuveraient une "intervention" en Lybie ? Chouette, allons-y ! Partons en croisade ! Ah merde, c'est pas moi qui décide. Comment ça c'est pas une croisade ? Pas grave, ils sont musulmans, c'est pareil ! Comment ça près du tiers de notre commerce extérieur se fait vers des pays musulmans ? Rho, ils font chier, si on peut même plus faire du populisme en paix avant des élections...
No comments.

Le clou, ça a été hier soir lors de la soirée électorale. D'abord, je me suis presque étouffé de rire quand la présentatrice de I-Télé (et je ne la blâme pas elle, ils l'ont tous fait, je blâme plutôt les deux statistichiens à côté d'elle qui lui ont pas dit la connerie) nous a présenté des résultats nationaux. Hahaha ! 36% PS, 20% UMP, 11% FN ! La gauche a gagné, la droite s'est reprise et l'extrême a baissé ! Euh... Non. D'abord, aucun de ces trois partis n'étaient présents partout. Donc 36% pour le PS, c'est la part de français ayant voté PS. Pas la part des français ayant voté PS dans les cantons où il était présent. Ainsi, on est plus proche de 55% pour le PS, sûrement 45% pour l'UMP et pas loin de 35% pour le FN. A pas mal de choses près, c'est un calcul à la grande louche fait par moi à l'instant (ça dépasse les 100% ? normal, on n'est pas en population totale ni sur des résultats comparables). Enfin, ce matin, ils ont semblé s'être repris : ces résultats nationaux ne peuvent, à l'extrême limite, servir qu'à faire des comparaisons avec l'élection de 2004. Et encore, je vous dis à la limite puisque la précédente élection ayant été couplée avec les régionales, ça introduisait un biais énorme (pour vous donner une idée, imaginons que pour les cantonales vous ayez le choix entre PS et FN et que vous voteriez normalement UMP, sans conviction, et pour les régionales PS et UMP. Si vous votez PS pour le premier, il y a de grandes chances que vous votiez aussi PS pour les régionales car vous vous direz que après tout, si on m'a appelé à voté PS, autant le faire pour tout ! ps : c'est le biais qui a été introduit en couplant présidentielle et législative en 2002 et qui fait donc que le vainqueur de la présidentielle, à moins de grosse bévue, se retrouve avec une Assemblée toute acquise à sa cause). Donc ça, c'était marrant. Mais je vous ai parlé d'un clou, le voilà !

C'est le Secrétaire Général de l'UMP qui l'a enfoncé avec une masse, un maillet, une hache de guerre ! Les reports de voix. C'est une chose à prendre avec d'infinies pincettes. Dire qu'il y a une forte proportion de sympathisant PS qui ont préféré voter FN que UMP en cas de duels entre ces deux derniers, d'accord. Enfin "forte" c'est déjà subjectif, mais je n'en attendais pas moins d'un responsable (hum hum) politique. Mais ensuite les blâmer en disant "Ouh les pas beaux, les méchants !", faut pas pousser Hortense dans les pétunias ! De une, c'est anti-démocratique. Comme les responsable de l'UMP l'ont rappelé durant une bonne semaine (tout en sachant très bien qu'ils s'en privent quand ça les arrange), un parti n'est pas propriétaire de ses votants, et je les en félicite, j'ai toujours trouvé idiot de faire des additions. Donc on peut appeler à voter machin ou truc, mais on ne peut pas obliger les gens à écouter. De deux, j'aimerais bien qu'il me montre ses sources, j'adore regarder ce genre de résultat (sans cynisme). De trois, l'interprétation des reports est impossible statistiquement, on ne peut jamais savoir si c'est une protestation (regardez les reports de la LCR vers le FN en 2002 par exemple), par crainte (personnellement, je connaissais les deux candidats UMP et FN d'un canton à côté de chez moi, le premier est un admirateur du Reich qui m'a refoulé en soirée parce que j'avais 'une gueule trop arabe' (premièrement c'est scandaleux de dire ça, deuxièmement, je crois qu'il est bigleux), le deuxième est un type que je croise à la fac tous les jours, qui n'a rien de raciste, mais qui défend un protectionnisme ardent. Bien que ne partageant pas les idées du dernier (suis un libéral keynésien moi !), si j'avais été obligé de choisir, par crainte, je n'aurais pas pris le premier), ou bien par adhésion. Pour le savoir, il faut ensuite sonder ces gens là, ce qui n'est pas évident du tout. Imaginons un sondage sur un panel de 1000 personnes, il doit y en avoir à peu près 600 qui se sont abstenus, donc à peu près 100 votants PS, en imaginant à la grande limite que 25% d'entre eux se soient reportés sur le FN ça nous laisse 25 personnes, donc il va falloir s'interroger sur ceux là. Je vous ai déjà dit qu'il y avait de gros biais à prendre en compte donc on ne détectera vraisemblablement qu'une dizaine d'entre eux. Tirer des conclusions nationales à partir d'un échantillon de 10, v'là le biais ! Donc on ne commente pas. Moi-même, j'aurais à choisir (et je croise les doigts que ça n'arrive pas) entre Nicolass et Marine, je préférerais m'exiler. Sans blagues.