Rubriques


Notre second livre

Notre premier livre
Accueil
Qui sommes nous ?
Mises à jour
Autres infos
Article de la semaine
Livre du mois
Lexique d'économie
Questions & Réponses
Notes de lecture
Bibliographie
Liens
Bêtisier
Blagues d'économistes
Le blog d'éconoclaste
Le forum d'éconoclaste

Contact

Nous contacter

Recherche
sur le blog

Réseaux sociaux

Facebook




Twitter


Blogroll

Economie

Autour de l'économie

Archives

Blogs influents

RSS

Billets Commentaires

Juridique

Dotclear est notre ami Thème SG 63 modifié

Club privé

administration

Le blog d'éconoclaste


Un jour ordinaire dans le monde merveilleux des faux nombres
Alexandre Delaigue samedi 23 octobre 2010 19:11 Lies, damn lies and statistics # 1752 rss PDF

Je n'aurai pas dĂ» lire Proofiness. cet excellent livre, sur la façon dont les chiffres sont torturĂ©s, manipulĂ©s, par journalistes, politiques, militants, magistrats, a un gros dĂ©faut : il n'est plus possible ensuite de lire le journal sans sauter au plafond d'Ă©nervement. Trois exemples du jour.

Commençons par un sondage, présenté dans un article titré "les français souhaitent la fin des grèves". Un magnifique concentré, que ce soit l'article, ou le sondage.

Pour le sondage, d'abord, ça ne rigole pas. On nous colle partout des sigles "ISO", sans doute pour bien nous persuader que nous sommes face Ă  de la science rigoureuse. La mĂ©thodologie, indiquĂ©e page 3, est comique de prĂ©cision : ce sont mille et une personnes qui ont Ă©tĂ© interrogĂ©es. Vous vous demandez sans doute "pourquoi ce nombre". Il y a deux rĂ©ponses. Premièrement, sur un sondage effectuĂ© alĂ©atoirement, le nombre de personnes interrogĂ©es dĂ©termine la marge d'erreur. Or la marge d'erreur est indiquĂ©e plus loin sur la page, ce qui nous indique que ce nombre de personnes interrogĂ©es est redondant.

Mais il ne l'est pas. Tenez, un petit test. Laquelle de ces deux phrases vous semble la plus convaincante : "les français sont majoritairement hostiles au bouclier fiscal" et "65% des français sont hostiles au bouclier fiscal". Si vous ĂŞtes comme tout le monde, la seconde phrase vous paraĂ®t bien plus convaincante. Pourtant les deux disent la mĂŞme chose. Mais la prĂ©sence d'un nombre dans la seconde donne l'impression qu'il y a eu mesure, et que cela rend la phrase plus "scientifique". Pourtant, nulle part n'est indiquĂ© comment ce chiffre a Ă©tĂ© dĂ©terminĂ© (je viens de l'inventer, en fait). Ce phĂ©nomène par lequel la simple prĂ©sence de nombres persuade est renforcĂ© par la prĂ©cision apparente du nombre. Par exemple, si j'Ă©cris Ă  la place de la phrase "64.93% des français sont contre le bouclier fiscal" cela semble plus convaincant que 65%, qui semble arrondi. Pourtant, ce nombre n'est pas moins inventĂ© que le prĂ©cĂ©dent.

Dans un sondage, le nombre de personnes interrogĂ©es ne sert qu'Ă  une chose : dĂ©terminer la marge d'erreur. Celle-ci est Ă  peine modifiĂ©e par le fait d'interroger 1000 ou 1001 personnes. la prĂ©cision exacte du nombre de personnes interrogĂ©es, ici, sert donc beaucoup plus Ă  Ă©tablir la conviction de scientificitĂ© qu'Ă  informer rĂ©ellement.

- Parlons-en, d'ailleurs, de la marge d'erreur. Elle correspond, dans un sondage, au premier type d'erreur, l'erreur statistique. Celle-ci provient du phénomène suivant. Supposez une urne remplie de 10000 boules, 6000 rouges et 4000 jaunes. Vous prélevez un échantillon aléatoire de 10 boules dans cette urne. Votre échantillon peut reproduire la répartition de la population (6 boules rouges et 4 jaunes). Mais il y a de fortes chances de tomber sur un échantillon différent de la population (par exemple, 7 rouges et 3 jaunes, ou même 10 rouges et zéro jaunes). Par contre, plus votre échantillon est grand, plus le risque d'obtenir un échantillon très différent de la population diminue. Cela vous donne donc de fortes chances, lorsque vous prélevez un échantillon suffisamment grand, d'obtenir un échantillon proche de la population. Cette proximité est la marge d'erreur, vous en avez quelques exemples en suivant ce lien.

Mais la marge d'erreur ne correspond qu'Ă  l'erreur statistique. Elle ne prend pas en compte l'autre erreur, la plus courante : l'erreur structurelle. L'erreur structurelle vient de ce qu'en pratique, les sondages ne correspondent jamais au cas thĂ©orique de boules de couleur prĂ©levĂ©es dans une urne, comme dans les exercices de mathĂ©matiques. En pratique, les sondages sont effectuĂ©s par des personnes rĂ©elles, qui peuvent se tromper en collectant leurs donnĂ©es; surtout, particulièrement dans les sondages rĂ©alisĂ©s auprès de personnes rĂ©elles, il y a des biais de collecte d'information. Il est par exemple impossible de sonder une personne qui refuse de rĂ©pondre aux sondages. Lorsque vous lisez "x% des français pensent que" il faut lire "x% des français qui rĂ©pondent aux sondages pensent que". Les gens peuvent mentir. Les gens peuvent vouloir ĂŞtre "bien vu" de la personne qui les sonde (et quand on est interrogĂ© par une jeune voix fĂ©minine, on est tentĂ© de lui faire plaisir). Les rĂ©ponses peuvent ĂŞtre orientĂ©es par la façon dont les questions sont posĂ©es, voire mĂŞme par l'ordre dans lequel elles sont posĂ©es : si par exemple on vous demande d'indiquer vos opinions politiques avant de vous poser des questions de sociĂ©tĂ©, vous aurez beaucoup plus tendance Ă  vous conformer aux opinions-type de votre camp.

Les sondeurs dĂ©clarent toujours l'erreur statistique, sous forme de marge d'erreur. Mais ils ont une fâcheuse tendance Ă  laisser croire que la marge d'erreur mesure tous les risques d'erreur, y compris l'erreur structurelle. Ce n'est pas le cas. Pour une raison simple : si l'erreur statistique est connue et limitĂ©e, l'erreur structurelle peut potentiellement rendre le sondage totalement faux. Avec trop d'erreur structurelle, la "marge d'erreur" peut devenir 100%.

Dans cet exemple (voir toujours page 3), il y a un biais Ă©norme : le mode d'interrogation, en ligne. LĂ  encore, la "scientificitĂ©" est assise sur la dĂ©nomination du système d'interrogation, dĂ©signĂ©e par un sigle en anglais. Ca fait tout de suite plus sĂ©rieux. Mais cela a une implication claire : les personnes qui ont servi Ă  ce sondage correspondent Ă  un sous-groupe particulier de la population, les gens qui ont un ordinateur et un accès internet, et qui acceptent de rĂ©pondre Ă  un sondage en ligne. Il y a très peu de chances qu'ils reprĂ©sentent la population française. L'application lĂ -dessus de la "mĂ©thode des quotas", au passage, loin d'amĂ©liorer le rĂ©sultat, ne fait qu'introduire de nouveaux biais.

A partir de ce monument de scientificitĂ©, la façon dont l'article est prĂ©sentĂ©e peut elle aussi totalement en modifier la perception. En s'appuyant sur la page 5 du document, on aurait très bien pu titrer "61% des français approuvent le mouvement contre la rĂ©forme des retraites". Etrangement, ce sont les questions page 8 et 10 qui servent pour faire le titre : "les français souhaitent la fin des grèves". Parce que, comme on peut toujours s'y attendre avec un sondage, poser la mĂŞme question avec des formulations et des informations diffĂ©rentes modifie le rĂ©sultat obtenu. Un esprit raisonnable, face Ă  ces contradictions, en conclurait que ce sondage ne nous apprend rien d'intĂ©ressant. C'est oublier les talents d'exegese que l'on peut dĂ©ployer pour donner du sens Ă  une sĂ©rie de nombres qui n'en a aucun.

L'article nous indique donc que "l'opinion a un point de vue complexe et nuancĂ©". qu'en termes galants... C'est que le sondage ne donne pas les mĂŞmes rĂ©sultats selon qu'on demande aux gens s'ils "comprennent" ou "soutiennent" les manifestations. On aurait pu essayer d'autres verbes : "approuvez-vous"? "ApprĂ©ciez-vous"? "vous intĂ©ressez-vous"? et Ă  chaque fois, on aurait eu un nombre diffĂ©rent. Du commentaire sur du bruit.

Deuxième article : "Panini retire du marchĂ© le jeu polĂ©mique des Skyzos". On y apprend que suite Ă  des plaintes d'associations, Panini retire un jeu de la vente. Mais comme il est dans la rubrique "santĂ©", l'article se doit de nous apprendre autre chose que cette anecdote sans grand intĂ©rĂŞt. Le dernier paragraphe nous instruit donc sur la schizophrĂ©nie de la façon suivante : Si l'hĂ©rĂ©ditĂ© est une composante importante dans son apparition, d'autres facteurs environnementaux, comme l'isolement social ou la consommation de cannabis, peuvent Ă©galement peser.

Voici un second exemple de chiffres torturĂ©s : la corrĂ©lation prise pour une causalitĂ©. Il existe en effet de nombreuses Ă©tudes mĂ©dicales montrant l'existence d'une corrĂ©lation entre diffĂ©rentes variables, ici, l'apparition de la schizophrĂ©nie et l'isolement social ou la consommation de cannabis. Voici ce que ces Ă©tudes montrent : les schizophrènes ont plus tendance que le reste de la population Ă  consommer du cannabis ou Ă  ĂŞtre isolĂ©s socialement. Et c'est tout. Vous voyez que la causalitĂ© peut ĂŞtre interprĂ©tĂ©e dans tous les sens. Il est fort probable, par exemple, qu'une personne commençant Ă  manifester des signes de schizophrĂ©nie va avoir tendance Ă  s'isoler socialement. On pourrait supposer Ă©galement que face Ă  l'angoisse que causent les premiers symptomes de cette maladie, les gens soient incitĂ©s Ă  consommer du cannabis pour les calmer. Dès lors, c'est la schizophrĂ©nie qui cause isolement et toxicomanie. Ou alors, comme indiquĂ© dans l'article, la causalitĂ© va dans l'autre sens. Comment savoir?

En pratique, il y a des moyens pour essayer de mieux distinguer le sens de la causalitĂ©. Mais ils sont difficiles Ă  mettre en oeuvre, et eux-mĂŞmes sujets Ă  des erreurs. Surtout, ils ne sont que très rarement utilisĂ©s pour les Ă©tudes mĂ©dicales. C'est ce qui fait qu'une quantitĂ© invraisemblable d'Ă©tudes mĂ©dicales est fausse. Mais l'article n'est pas lĂ  pour instiller le doute, mais pour instiller discrètement une morale : le cannabis, ça rend fou.

Enfin, Ă  tout seigneur tout honneur, l'Equipe nous gratifie d'un monument hilarant au dĂ©nombrement bidon, dans cette fine analyse consacrĂ©e aux Ă©quipes de foot de Lorient et Nancy. Les deux Ă©quipes, cette annĂ©e, sont en effet passĂ©es au gazon synthĂ©tique. Et malheur : les rĂ©sultats ne suivent pas. A l'appui de cette dĂ©monstration, un schĂ©ma avec plein de jolies couleurs mais parfaitement illisible, d'oĂą il semble ressortir que les deux Ă©quipes ont cette annĂ©e de bien mauvaises performances, en particulier Ă  domicile. Pourtant, une connaissance mĂŞme minimale du football indique qu'il y a des tas de facteurs qui font qu'une Ă©quipe, d'une annĂ©e sur l'autre, voit ses rĂ©sultats se dĂ©grader après 9 journĂ©es : changements de joueurs, chance, adversaires rencontrĂ©s, progrès relatif des autres Ă©quipes, etc. cette mĂŞme connaissance minimale indique qu'il peut y avoir des tas de raisons d'adopter un terrain synthĂ©tique, autres que la volontĂ© d'obtenir de meilleurs rĂ©sultats : coĂ»t, climat local (il gèle souvent Ă  Nancy, il pleut souvent Ă  Lorient). Enfin, je me demande mĂŞme pourquoi j'explique Ă  quel point nous sommes lĂ  dans le grand n'importe quoi.

A bientĂ´t, dans le monde merveilleux des copies laborieuses Ă  partir de chiffres inutiles.



Partager

Commentaires

1. Fr. samedi 23 octobre 2010 20:57

En réalité, la marge d'erreur des sondages ne dépend pas du nombre de personnes interrogées. La taille de l'échantillon détermine l'erreur standard, mais les marges erreurs doivent être calculées sur chaque question, à cause des observations manquantes, des personnes ne sachant pas répondre à la question, et des refus de réponse. Les questions ont quasi-systématiquement une marge d'erreur plus large que celle affichée, sans même évoquer les autres biais qui s'appliquent à la méthode d'échantillonage, à la forme de la question et aux options de réponse.

Le comic de xcd reste la meilleure blague sur la correlation-causation fallacy : xkcd.com/552/

Sur le gazon synthétique, ça me rappelle l'anecdote souvent utilisée en statistiques : un instructeur militaire avait remarqué que les performances de ses soldats se dégradaient quand il reconnaissait leur excellence, ou qu'elles s'amélioraient quand il reconnaissait leur médiocrité.

Sinon, sur le fond, le jeu des Skyzos me paraît d'une stupidité rarement égalée.


2. Tom Roud samedi 23 octobre 2010 22:13

Sur la marge d'erreur des sondages, une façon de l'estimer serait de refaire le même sondage plusieurs fois à la suite et de voir comment varie le résultat. D'ailleurs, n'a-t-on pas eu un exemple récent où deux sondages consécutifs aux questions semblables avaient eu un résultat opposé ? La stabilité des sondages présidentiels en 2007 m'avait assez frappé de ce point de vue là (trop peu variable pour être honnête).


3. BorderLine samedi 23 octobre 2010 23:00

@Tom Roud: je suis sur que les instituts de sondages adorerais voire se généraliser la pratique du Monte-Carlo de sondage, ce serais bon pour leurs affaires. Le problème est que si le biais est systématique (ex: l'échantillon sondé n'est pas représentatif de la population) il ne disparaîtras pas par la magie de la loi des grands nombres.

N'est il pas possible d'estimer la marge d'erreur (et le biais) des sondages en comparant les prédiction sur un échantillon (sondage) et le résultat sur la population, dans le cas d'une élection par exemple?

Réponse de Alexandre Delaigue :

Ce n'est pas toujours possible: si dans une élection le % final sera connu (ce qui incite les sondeurs, dans ces cas, a faire plus attention) le plus souvent on ne peut pas. Par ailleurs les biais changent. Pensez a la sous déclaration fn, sous évaluée en 2002, surestimée en 2007.

4. Fr. dimanche 24 octobre 2010 00:26

Tom Roud a raison, il faudrait faire du MCMC, mais bon…

Juste un exemple : selon ce sondage, 7% des sympathisants d'extrême-gauche déclarent qu'ils ne comprennent pas vraiment ou pas du tout les manifestations et les mouvements de grève contre la réforme des retraites.

Pour moi, cela signifie que le sondage a une marge d'erreur bien supérieure à 3% sur cette question -- que signifie "comprendre" pour les enquêté(e)s ? -- et/ou sur la question permettant de définir les affiliations politiques des enquêté(e)s.

La question suivante sur le soutien indique toujours 7% de sympathisants d'extrême-gauche n'affichant pas vraiment ou pas du tout de soutien au mouvement : sans explication des sondeurs, je prends peu de risque en disant qu'ils manipulent des concepts sans les maîtriser, vu que la catégorie de sympathisants d'extrême-gauche opposés aux réformes actuelles n'a pas plus de sens que la catégorie de “gaucho-lepéniste”.

Les observations manquantes (NSP) sont faibles (ce qui est logique dans du déclaratif réalisé en ligne), mais les biais ont l'air d'être importants pour d'autres raisons, liées à un aveuglement à peu près complet (si l'on s'en tient au document diffusé) sur les catégories et les termes utilisés. Je me demande d'ailleurs quelle méthode aboutit à un échantillon représentatif de l'extrême-gauche dans un sondage pour Le Figaro. Enfin…


5. stage dimanche 24 octobre 2010 01:02

M. Delaigue, vous avez des accents de Ronald Fisher par moments: www.york.ac.uk/depts/math... "I think you will agree that a slight cause of irritation – a slight disappointment, an unexpected delay, some sort of a mild rebuff, a frustration – are commonly accompanied by pulling out a cigarette and getting a little compensation for life’s minor ills in that way. And so, anyone suffering from a chronic inflammation in part of the body (something that does not give rise to conscious pain) is not unlikely to be associated with smoking more frequently, or smoking rather than not smoking."

Ne me faites pas dire que je vous fais dire ce que vous ne dites pas...




6. dl dimanche 24 octobre 2010 01:15

Je serai tenté de conclure de votre post qu'il ne faut pas lire le figaro (ce qui me va très bien puisque je ne le lis pas)

Très bon post sinon

Réponse de Alexandre Delaigue :

Je précise que si c'est tombe sur le Figaro aujourd'hui, c'est au hasard de mes lectures. La torture numérique est une pratique hélas bien générale.

7. xstoffr dimanche 24 octobre 2010 09:05

Vous êtes bientôt prêt pour animer le "more or less" français que vous appeliez de vos voeux. D'ailleurs il me semble que l'animateur de la bbc est un économiste.

Dans le même ordre d'idée et la confusion entre corrélation et causalité, l'article récent du monde sur la moindre productivité des obèses était tout à fait typique: www.lemonde.fr/ameriques/...

L'article implique que l'obésité est la cause d'une moindre productivité alors que les données collectées ne font que montrer une corrélation et dans ce cas on peut très largement penser que d'autres facteurs (éducation, troubles psychologiques...) peuvent être à la fois des facteurs de moindre productivité et d'obésité.


8. Vince dimanche 24 octobre 2010 12:48

Mouahahaha j'imagine bien quelqu'un expliquer l'ANOVA ou le khi-deux Ă  des journalistes, on risque de bien se poiler...


9. Axonn dimanche 24 octobre 2010 15:30

Question sur le "corrélation et causalité".

Quand A et B sont corrélés, A n'est pas forcément la cause de B. Mais est-il possible qu'ils n'aient vraiment aucun rapport ? Je veux dire par là que généralement, l'erreur est d'oublier que cela peut aussi signifier "A et B sont tous les deux causés par C". Est-il exact de dire qu'une corrélation implique une relation causale au moins indirecte ?

Note : en bas, je lis : "Pour éviter les robots spammeurs, nous vous demandons de répondre (en chiffres) à cette question très complexe : Combien font deux plus deux ?"

Vu le sujet de l'article, et en hommage à Orwell, je meurs d'envie de taper 5…

Réponse de Alexandre Delaigue :

Non : une corrélation peut tout aussi bien être une coincidence, le fruit du hasard, sans la moindre causalité, ni même un facteur tiers explicatif.

10. webmaster de Schizophrenies.fr dimanche 24 octobre 2010 16:06

Bonjour,


Juste pour vous éclairer sur un point qui sort de l'économie et des statistiques mais vous l'avez abordé.

Concernant la schizophrénie et le cannabis, il y a vraiment une causalité, en plus d'une corrélation que vous soulevez avec raison.

Tous les fumeurs de cannabis ne deviennent pas schizophrènes mais la proportion de fumeurs qui génétiquement est "fragile" (ils n'existe pas de gène de la schizophrénie, c'est une combinaison d'"erreurs génétiques" sur plusieurs gènes qui provoque la schizophrénie) et possède la disposition à déclarer une schizophrénie déclenchera plus tôt une schizophrénie. S'ils n'avaient pas fumé, ces personnes ne seraient pas devenues schizophrènes ou le seraient devenu plus tard (la schizophrénie se déclare toujours quand le cerveau est fini, à la fin de l'adolescence, entre 15 et 25 ans).

Une vidéo sur la schizophrénie et le cannabis :
www.youtube.com/watch?v=h...

Vous avez raison aussi de souligner qu'il y a aussi une corrélation entre cannabis et schizophrénie. Beaucoup de malades fument du cannabis pour se soulager. Ou aussi car ils sont désocialisés (on estime qu'1/3 des SDF est schizophrène).

On sort de l'économie mais vous avez eu raison de soulever ce point. La journaliste du Figaro avait globalement raison de pointer causalité mais elle aurait dû/pu ajouter la corrélation.

Je peux rechercher si vous voulez des études médicales qui prouvent la causalité mais je vous confirme que celle-ci est réelle.

Réponse de Alexandre Delaigue :

Les éléments que vous indiquez décrivent bien le problème : la grande difficulté à identifier la causalité et son sens dans une corrélation constatée. Je ne doute pas qu'il existe des études médicales concluant à (et non prouvant...) la causalité; je doute que l'on puisse en conclure grand chose. Merci de ce commentaire en tout cas.

11. Thomas dimanche 24 octobre 2010 16:25

@webmaster de Schizophrenies.fr : Existe, mais à quelle hauteur ? Puisque c'est un article sur les chiffres, quelques statistiques (même fausses ;) ) ou le détail de l'étude (du coup) seraient intéressants.
Quels sont les risques pour une personne avec une schizophrénie latente ?
Pour l'article de l'équipe, ça me rappel une citation :
"Quatre hommes visitent l'Australie pour la première fois. En voyageant par train, ils aperçoivent le profil d'un mouton noir qui broute.
Le premier homme en conclut que les moutons australiens sont noirs.
Le second prétend que tout ce que l'on peut conclure est que certains moutons australiens sont noirs.
Le troisième objecte que la seule conclusion possible est qu'en Australie, au moins un mouton est noir.
Le quatrième homme, un sceptique, conclut : il existe en Australie au moins un mouton dont au moins un des côté est noir". Raymond Chevalier


12. Tom Roud dimanche 24 octobre 2010 18:56

@ Axonn : mon exemple préféré de corrélation sans causalité, c'est ce graphique merveilleux entre le nombre de tâches solaires et le nombre de sénateurs républicains aux US
tomroud.com/2010/04/08/re...


13. Rhizome dimanche 24 octobre 2010 19:01

je conseille pour ma part la lecture de "L'opinion publique n'existe pas" de Pierre Bourdieu et les travaux de P. Champagne sur ces questions.
extraits choisis du premier texte:
"Toute enquête d’opinion suppose que tout le monde peut avoir une opinion ; ou, autrement dit, que la production d’une opinion est à la portée de tous. Quitte à heurter un sentiment naïvement démocratique, je contesterai ce premier postulat.

Deuxième postulat : on suppose que toutes les opinions se valent. Je pense que l’on peut démontrer qu’il n’en est rien et que le fait de cumuler des opinions qui n’ont pas du tout la même force réelle conduit à produire des artefacts dépourvus de sens.

Troisième postulat implicite : dans le simple fait de poser la même question à tout le monde se trouve impliquée l’hypothèse qu’il y a un consensus sur les problèmes, autrement dit qu’il y a un accord sur les questions qui méritent d’être posées."

et le rêve est réalité, on trouve le texte sur internet: lmsi.net/L-opinion-publiq...
et la justification de sa problématique ici:
www.homme-moderne.org/soc...


14. Rhizome dimanche 24 octobre 2010 19:15

Sur la différence entre "cause" et "corrélation", je voudrais ajouter quelque chose. Dans un très grand nombre de domaines, on répète inlassablement la question des problèmes "multi-factoriels". La santé en fait partie. La schizophrénie peut être un exemple.
Puisque l'on est sorti d'une médecine anatomo-pathologique pour rentrer dans une médecine "des risques" (je caricature), on ne voit plus de cause, mais des "corrélations significatives".
Ce n'est pas tant le terme de corrélation qui est important que le terme "significatif". Cela veut dire que l'on fixe des seuils selon lesquels on a une réponse qui va pouvoir être caricaturée comme positive ou négative. Prenons l'exemple du cancer des poumons et la cigarette: La corrélation significative est très élevée et permet de parler de cause, bien que scientifiquement, il n'y ait nulle "cause directe", mono-factorielle et exclusive. Ou alors on a des causalités molles qui affaiblissent les sciences...
La question de la "signification" est donc celle de l'interprétation des statistiques et du seuil de "signification". Cette question renvoie donc au travail d'interprétation des chercheurs, à certains schémas sociaux intériorisés, certaines préférences idéologiques (ce qui est manifeste dans le cas du cannabis [et de la schizophrénie], où les résultats scientifiques varient selon la couleur du gouvernement, cf. rapport Roques, puis les rapports de la Mildt), etc.


15. jmdesp dimanche 24 octobre 2010 22:35

> L'application là-dessus de la "méthode des
> quotas", au passage, loin d'améliorer le
> résultat, ne fait qu'introduire de nouveaux
> biais.

:-( C'est bien la peine de critiquer les journalistes et de balancer une telle affirmation qui est digne de leurs pires manipulations.

Sans la méthodes des quota, impossible de faire un sondage significatif sur seulement 1000 personnes. Un peu d'histoire des sondages : au début du siècle les journaux organisaient des sondages volontaires, or même avec des millions de réponses, la précision était très faible, bien inférieure à ce que l'on obtient aujourd'hui. La différence : les quotas, et les techniques sophistiquées pour éviter les biais qui les accompagnent.

La limite, c'est qu'on essaie d'obtenir des miracles à partir des techniques de quota, de faire totalement disparaitre les biais, c'est là que ça coince. De temps en temps, les biais réapparaissent, et faussent sérieusement le résultat.
Le deuxième limite est que quelquefois celui qui commande le sondage ne souhaite pas avoir la vraie réponse, donc sur la base d'un mécanisme conçu pour éviter les erreurs, on ajoute le genre de manipulation dénoncées ici.

Mais à partir de là, se permettre de déclarer, que ça n'améliore pas les résultats, que ça ne fait que introduire des biais supplémentaires, euh ... bravo, ya plus qu'à envoyer votre CV aux journaux, ça devrait le faire. Et puis j'adore les guillemets autour de "méthode des quota", si on a un peu conscience à quel point ça améliore ce qu'on aurait sinon.


16. bob dimanche 24 octobre 2010 23:20

Un Français, je suis français, SVP.

Article intéressant.


17. Kroppi lundi 25 octobre 2010 06:10

@Rhizome

La critique bourdieusienne de l'opinion publique n'est pas inintéressante (quoi qu'il n'ait rien inventé, les termes du débat sont plus ou moins les mêmes depuis les années 20, avant même l'invention du sondage d'opinion) mais elle pose certains problèmes.

Dans son exposé (un peu trop) célèbre, il met certes en lumière des éléments pertinents, comme la distinction entre réponse politique et réponse éthique, les questions imposées aux répondants ou le fait d'interroger les individus hors de leurs groupes d'appartenances.

Le problème, c'est que l'élection démocratique est basé sur les mêmes postulats que les sondages (tout le monde a le droit de voter, les votes ne sont pas pondérés, des nombreuses problématiques sont agrégées en une seule réponse, les enjeux de l'élection sont imposés aux candidats etc). Du coup, soit on critique la démocratie en elle même plutôt que les sondages, soit on met en évidence les différences méthodologiques entre une élection et un sondage (ce que fait Alexandre dans l'article). Le raisonnement de Bourdieu se perd dans une critique méthodologique des sondages qui ne sert à rien une fois qu'on a postulé la "naïveté" de leurs postulats.


18. Pit lundi 25 octobre 2010 15:00

@Schizophrenies.fr, sans vouloir relancer un débat qui n'a pas sa place ici, je voudrai rectifier ce qui me semble être une erreur. Ou plutôt deux erreurs.
Aucune étude actuelle ne permet d'établir que la consommation de cannabis est, à elle seule, un facteur causal de la schizophrénie.
On peut même aller au delà en disant que le pourcentage de la population française diagnostiqué comme "schizophrène" est stable depuis 30 ans (environ 0,8% de la population, je n'ai pas de chiffre plus exact, désolé), tandis que la consommation de cannabis a elle connue une forte augmentation (je n'ai pas les chiffres sur 30 ans mais je pense que cette augmentation n'est un secret pour personne).

Ou encore selon l'Inserm "l’usage de cannabis apparaît donc comme l’un des très nombreux facteurs de causalité (ni nécessaire, ni suffisant) qui accompagne la survenue de la schizophrénie sans en affecter l'évolution de façon favorable, bien au contraire ces produits aggravent certains symptômes."

Mon est objet n'est pas, bien entendu, de faire l'apologie du cannabis, loin de là. Mais simplement de ne pas laisser se propager des contres vérités ou des conclusion hatives.

De même que réduire l'étiologie de cette pathologie à la génétique est abusif et scientifiquement inexact.

Veuillez m'excuser pour cet aparté, je sais que je suis à côté du sujet de cet article (très intéressant par ailleurs), mais ces précisions me paraissaient importantes.

Pour ceux que ça intéresse, sur la schizophrénie l'article Wiki est plutôt bien fait, et surtout avec des sources fiables


19. Christian B. lundi 25 octobre 2010 21:15

Pour se détendre un peu, extrait d'un classique de la sitcom britannique :

www.youtube.com/watch?v=2...


20. insee lundi 25 octobre 2010 23:02

Article de J.M. Charpin (ancien commissaire au plan et ancien DG de l'insee) sur la statistique dans la Revue Economique, mai 2010.


21. Arthur lundi 25 octobre 2010 23:47

C'est marrant ce retour aux sources, car ces débats causalité/corrélation, ont été mené initialement sur la question des liens entre tabacs et cancers...
freakonometrics.blog.free...


22. KosMo mardi 26 octobre 2010 00:15

La quantophrénie de notre époque n'aura de cesse de m'étonner ...


23. ima mardi 26 octobre 2010 12:45

Pour les questions sur les sondages (notamment les méthodes des quotas), je suggère la très bonne chronique :
www.rue89.com/en-faire-un...

Enfin prendre le figaro comme exemple pour la manip de sondages c'est du velours. Le Figaro fait le coup à chaque fois (voire les controverses sur les sondages sur les annonces sécuritaires). A chaque fois on a droit à de la manip de résultats à des extractions partielles de questions..... le tout pour que la une soit le plus favorables aux opinions de son actionnaire.


24. edge mercredi 27 octobre 2010 01:22

L'usage de la marge d'erreur statistique n'a aucun sens en France, où tous les sondages se font à partir d'échantillons "représentatifs" -autrement dit, à partir d'un modèle sociologique frustre des comportements politiques, qui relie à quelques variables (sexe, âge, CSP (qui sont elles-mêmes des approximations sociologiques), taille de l'agglomération) les réponses des personnes interrogées.

On n'est donc plus dans le cas d'un tirage aléatoire de 1000 personnes où l'on essaye de déterminer la marge d'erreur à partir de la loi normale.

La loi normale ne vaut que pour chacune des variables : on peut estimer la marge d'erreur dans la mesure de l'opinion des cadres habitant une ville de plus de 100 000 habitants et de sexe masculin, etc. en sachant que l'on en a interrogé 20, par exemple, dans le cadre du sondage.

Mais on ne sait rien sur la valeur globale du résultat du sondage qui part du principe que ces variables sont pertinentes et prédictives.

Bref, cela illustre votre post : c'est une façon de mimer la scientificité qui n'est fondée sur rien.




25. Eric dimanche 31 octobre 2010 16:03

Sur quel sondage vous pouvez affirmer :
"il pleut souvent Ă  Lorient".
Merci de precisez vos sources..


26. FrédéricLN mardi 2 novembre 2010 08:17

Assez d'accord, sur l'épidémiologie, avec ... le débat en commentaires. Oui, les épidémiologues essayent d'établir des causalités, et ce n'est pas si difficile techniquement ; mais c'est difficile matériellement - en particulier, un outil très utile est le suivi de cohortes de personnes dans le temps (le fait que A précède ou au contraire suit B est l'un des indices quant au sens de la causalité éventuelle entre A et B).

Assez d'accord avec le billet et le débat sur les sondages (et très d'accord avec Tom Roud). Le seul passage qui m'a fait tiquer est

"L'application là-dessus de la "méthode des quotas", au passage, loin d'améliorer le résultat, ne fait qu'introduire de nouveaux biais." Non, c'est excessif.

Cependant je suis aussi en désaccord avec jmdesp. Contrairement à une légende répandue, ce n'est pas l'application de quotas qui a permis à Gallup de "battre", avec 4000 répondants, les millions de répondants du "Literary Digest" dans l'enquête préélectorale Roosevelt/Landon. C'est le fait que la méthode de tirage des répondants par Gallup était moins biaisée que l'autosélection des répondants par le LD (autosélection par le fait 1. d'être abonné à cette revue (ou de l'acheter ?), et 2. de répondre à son enquête).

La vertu essentielle des quotas est de rendre le tirage "moins biaisé" quand il risquerait de l'être.

Ainsi, dans les enquêtes sur "access panels en ligne" (des publics auto-sélectionnés par le fait d'accepter de répondre fréquemment à ce genre d'enquête, et très biaisés par rapport à la population générale) certains quotas PEUVENT réduire le biais démographique inhérent à la méthode.

En revanche ils ne réduisent pas - exemple trivial - le biais lié au fait d'être un usager régulier d'internet : tous les répondants à ces enquêtes le sont, quels que soient les quotas utilisés.

Enfin, ils PEUVENT accroître l'erreur, soit en contraignant à réduire la taille d'échantillon (refuser des répondants déjà en surnombre par rapport aux quotas) ; soit, de façon équivalente, en augmentant la variance des poids individuels à l'étape du redressement, si on redresse sur les quotas, ce qui est fréquent.

En fait, ces trois phénomènes se produisent à chaque fois ; difficile de savoir lequel l'emporte.

Quant à une comparaison entre données de multiples "access panels" sur une même questions, elle existe : Cf. présentation www.esomar.org/index.php/... (l'abstract ne mentionne pas les données, pas le temps de retrouver la source ce matin, désolé).


27. yagogak lundi 20 décembre 2010 14:50

Une question me taraude, qui est sondé ? Un jour de 2007 en pleine élection présidentielle, devant l'improbabilité des sondages, j'ai demandé à tout mes amis entre 20 et 30 ans, qui ont majoritairement des téléphones mobiles et pas de téléphone fixe, si ils avaient déjà été sondés. Personne dans mon entourage entre 20 et 30 ans n'a jamais été sondé, pour aucun sujet que ce soit depuis leur age adulte. Depuis j'ai refait le test souvent avec des gens que je rencontre, c'est bizarre, personne n'ai jamais sondé...


Ajouter un commentaire

Les commentaires pour ce billet sont fermés.