Quand l’individu supérieur est inférieur à la moyenne

qidistrib

« The trouble with the world is that the stupid are cocksure and the intelligent are full of doubt. ». Bertrand Russel

Il y a trois jours, dans une file d’attente interminable, j’avais un groupe de gens contents d’eux devant moi. Leur discussion, destinée à être entendue de tous, tournait autour de leurs talents intellectuels, visiblement hors du commun (et du fait qu’ils connaissaient par cœur le pénible endroit où j’étais ; ces cons y venaient souvent). C’est ainsi qu’un crétin boutonneux adolescent exprimait librement le fait qu’il était évident qu’il était bien plus mature que la plupart des jeunes de son âge. Imaginant que cela était dû au fait qu’il passait son temps à avoir des discussions chiantes, je m’apprêtais à passer en mode ears off , quand le crétin trentenaire qui le devançait a sorti une perle…

(Lire la suite…)

La mesure des inégalités pour les nuls (et les autres)

BRITAIN-LIFESTYLE-RECORD-OFFBEAT

Je ne vous apprends rien si je vous dis qu’il existe « quelques » débats sur les inégalités. Tous, enfin tous ceux qui sont un peu sérieux, démarrent avec des indicateurs d’inégalités et, généralement, avec des comparaisons dans le temps ou l’espace. Spontanément, je n’aurais pas eu l’idée de pondre un billet sur ces indicateurs, les supposant assez bien connus de beaucoup de gens (et, facilement accessibles, par ailleurs). Mais, comme il y a quelques mois, quelqu’un qui découvrait le blog m’a signalé que « pour les nuls » était passablement exagéré et que, non, ceux qui n’y comprennent rien, ne comprenaient rien à ce que j’écrivais, j’ai réfléchi. Et voilà ce que j’espère être un billet pour les nuls (et les autres). (Lire la suite…)

27 ans pour le premier CDI ? Origine du chiffre et quelques compléments (laborieux)

elkhom

En réponse à une question au gouvernement posée le mercredi 3 mai, la Ministre du travail a évoqué l’évolution de l’âge moyen d’accès au premier CDI, soulignant qu’il était passé d’environ 22 ans à 27 ans en l’espace de quinze ans (vidéo ici, à 49 minutes). Un chiffre intéressant, mais qui mérite d’être un peu creusé. (Lire la suite…)

Les jeunes et le FN vu par le Figaro. Qu’est-ce qu’on rigole…

fnjeunes

Si vous êtes journaliste, quoi de mieux que des statistiques pour appuyer vos thèses préparées à l’avance ? Des statistiques foireuses. Mais il y a des limites.
C’est le week-end, un peu de légèreté. (Lire la suite…)

L’article corrélation n’est pas causalité dont je voulais vous parler

Screenshot_2014-05-12_18.32.08.0_standard_755.0

Il est paru il y a deux semaines, sur Vox. Je vous livre le lien sans commentaires. Ça parle tout seul de la différence entre corrélation et causalité (maintes fois abordée sur ce blog).
J’ai choisi pour illustrer le billet ma corrélation préférée. Hélas, c’est aussi celle dont le r est le plus faible. Mais c’est pas grave…
C’est là que je suis triste de ne plus faire mon cours de statistiques descriptives ;-)

Et ce qui m’a rappelé de vous parler de l’article, c’est cet article qui montre bien que, parfois, corrélation EST causalité (et que je peux faire preuve de beaucoup de mauvaise fois quand je m’y mets).

Divertissement pour désoeuvré : cours d’économétrie accéléré pour Nicolas Doze.

Donc, Philippe Marini a trouvé un chiffre. 35 000. Le nombre d’expatriés de 2011. Il nous explique que ce chiffre l’interpelle. Après avoir soigneusement précisé qu’il était difficile d’isoler un facteur déterminant parmi les causes possibles de cette hausse pour 2011, il conclut, non sans évoquer l’effet « chars de l’armée rouge sur les Champs Élysées », que « Le départ des contribuables traduit une perte de confiance, voire un rejet de la France ». Franchement, pas de quoi lui en vouloir. Pour un gars qui est dans l’opposition, la sortie est finalement assez soft et presque mesurée. En apparence, celle de Nicolas Doze, l’est aussi. Mais non, en fait.

(Lire la suite…)

La corrélation Catwoman

Je suis tombé sur cet article paru l’été dernier. Très intéressant exemple de corrélation potentiellement mal interprétée. « Une recherche, menée sur plus de 45.000 femmes, révèle que celles-ci sont plus sujettes au suicide si elles ont un chat ».

On reprend nos vieux réflexes et on cherche la causalité possible dans la population des femmes :
1. Les chats poussent au suicide.
2. Les suicidaires aiment les chats.
3. Être suicidaire et avoir un chat sont deux variables dont la liaison est déterminée par une troisième.

C’est la proposition 3 qui est validée par l’article, par l’adjonction d’une causalité intermédiaire : Chat implique bactéries. Les défécations de chats contiennent une bactérie qui semble avoir un impact sur les comportements suicidaires, donc fréquenter un chat pousse au suicide à cause de la bactérie.

Deux remarques :
1. L’étude porte sur les femmes, mais qu’en est-il pour les hommes ?
2. Je n’exclue pas que la causalité « Les suicidaires aiment les chats » ait également un sens… ;-)

La corrélation NTM

Où Pierre Mercklé explique bien (à partir du lien entre déviance adolescente et musique écoutée) pourquoi lorsqu’il existe un lien statistique entre deux phénomènes A et B, il se peut que A implique B, B implique A ou qu’il n’y ait un lien entre les deux que par rapport à une ou plusieurs autres variables C qui influencent A et B de la même façon.

Lisez les trois propositions suivantes, volontairement caricaturales, d’abord sans lire les renvois.

« Je suis un type violent, donc j’en viens à écouter du rap (*). »

« J’écoute du rap, donc j’en deviens violent. (**) »

« Je viens de la Cité, donc je suis violent et j’écoute du rap.(***) »

Laquelle ou lesquelles vous semble(nt) réellement crédibles ? Les renvois expriment ma façon spontanée de penser le problème. Évidemment, ça se discute.

(*) parce que c’est bien connu les types violents écoutent du rap ; d’ailleurs une étude l’a montré récemment…
(**) parce que tous ces appels à tuer des flics, je les kiffe sévère et sans le rap, j’aurais jamais braqué une vieille de ma vie.
(***) parce que dans ma cité, il y a de la violence et tout le monde écoute du rap.

Célibataire, tu seras chômeur !

Le Parisien était tout fier de vous annoncer récemment une « Bonne nouvelle pour les partisans de la famille : il est désormais scientifiquement établi que pour éviter d’être au chômage, il vaut mieux vivre en couple qu’être célibataire. Alors que le nombre d’inscrits à Pôle emploi continue à grimper en flèche, c’est l’une des conclusions du « portrait social » de la France publié hier par l’Insee. ». Ou pas.

(Lire la suite…)

Corrélation, corrélation

Vous avez sûrement eu vent de l’étude aussi facétieuse que sérieuse (ou revendiquée comme telle) qui faisait le lien entre la consommation de chocolat d’un pays et le nombre de prix Nobel obtenus.

Vous savez que nous aimons bien l’expression « corrélation n’est pas causalité » (même si j’ai émis quelques réserves sur son usage facile et excessif). Je trouve cette étude très intéressante. Elle pose une vraie question (certes pas fondamentale, mais peu d’études posent des questions absolument fondamentales) qui stimule l’esprit critique.

Je vous conseille de lire cet article, qui résume bien le problème et relaie une des critiques amusantes faite au travail de Messerli, selon laquelle, en appliquant la même méthodologie que Messerli, on trouve une superbe corrélation entre consommation de chocolat et nombre de tueurs en série dans un pays…

Je veux souligner deux choses ici. La première, c’est que sur le fond, il n’y a rien de scandaleux dans cette histoire. L’article de Messerli donne sa méthodologie et elle est critiquable et critiquée. Le point le plus visible est l’absence d’analyse économétrique. L’article se contente d’envisager des mécanismes causaux sans quantifier la démarche. En particulier, la question d’une possible variable cachée est rapidement éliminée. Le choix des variables peut également poser problème. L’article de Roberts et Winters donne quelques détails sur ces deux aspects. La seconde problématique porte sur la forme : ce genre de publication est utile pédagogiquement. Elle offre la possibilité de se pencher sans passion (vu le sujet…) sur des questions scientifiques. Quand on lit cette note en complément de l’article de Messerli, on comprend que le second degré doit être mobilisé :

« Dr. Messerli reports regular daily chocolate consumption, mostly but not exclusively in the form of Lindt’s dark varieties. Disclosure forms provided by the author are available with the full text of this article at NEJM.org »

Et le ton très sérieux de la réponse de Winters et Roberts ne doit probablement pas être surinterprété non plus. C’est en tout cas mon hypothèse. En définitive, on a affaire ici à des échanges qui peuvent aider de façon amusante à mieux comprendre d’autres sujets bien plus préoccupants (suivez mon regard…), mais relevant de la même problématique. Donc, merci messieurs.

PS 1 : Je donne un cours de stats qui aborde les questions élémentaires de corrélation et je n’ai pas résisté à la tentation de parler de l’étude de Messerli…
PS 2 : Désolé, les commentaires sont toujours fermés, je n’ai pas encore réglé le problème du captcha.

90% plus pauvres ?

Soit une population constituée de 20 personnes. Sur ces 20 personnes, 18 gagnent 1000 euros par mois, et 2 gagnent 5000 euros par mois. Le revenu médian de cette population est donc de 1000 euros, le revenu des 10% les plus riches est de 5000/mois, le revenu des 90% les moins riches est de 1000/mois. Le revenu moyen est de 1400 euros par mois (et personne ne le touche).

Les revenus de cette population changent. Parmi les 18 qui étaient auparavant à 1000, désormais, 9 personnes touchent 900 euros par mois, et 9 touchent 1050 euros/mois. L’un des 2 qui gagnaient 5000 gagne désormais 2000, l’autre gagne 10 000 euros par mois. Dans cette population, le revenu moyen des 90% les plus pauvres est désormais de 975 €/mois. Le revenu moyen des 10% les plus riches est passé à 6000€/mois. Le revenu moyen est désormais de 1477,5€/mois.

On peut porter différentes analyses sur cette évolution. Mais il y en a une qui est complètement fausse : celle qui consiste à dire que les 90% les plus pauvres se sont appauvris au profit des 10% les plus riches.

Parce que la moitié de la population s’est enrichie, l’autre moitié appauvrie; que même parmi les 10% les plus riches, les évolutions sont divergentes. On ne connaît même pas l’origine de ces changements, qui peut provenir d’effets de composition. Bref, avant de tirer des conclusions hâtives des données, il convient de les examiner.

Ceci est un rappel pour les gens qui vont commenter aujourd’hui les nouvelles données de l’INSEE sur les revenus en 2010. Beaucoup manquent de la plus élémentaire prudence.

Quand il y a des morts, est-ce qu’il y a vraiment mortalité ?

La Provence nous « apprend » dans cet article que plus on est riche, plus on vit vieux. Pas surprenant. Par contre, mettre sur le compte de l’offre de soins la différence de mortalité prématurée selon les arrondissements de Marseille me laisse sceptique.

Dans la carte jointe à l’article, on constate que le 5ème arrondissement, contrairement à ce que l’article mentionne, connaît une surmortalité équivalente à celle des quartiers nord, soit proche de +30% par rapport aux chiffres nationaux (l’article prétend qu’elle est dans la moyenne, en contradiction avec ce qu’on peut lire sur la carte). Il y a pourtant dans le cinquième arrondissement une offre de soins tout à fait conséquente. Et, en particulier, on y trouve deux des plus grands hôpitaux de la ville, dont le très connu hôpital de la Timone.

J’ai bien cherché quelle particularité pourrait expliquer la surmortalité de l’arrondissement, par rapport au quatrième arrondissement, par exemple. Et je n’en vois qu’une : l’offre de soins y est… plus dense.

L’hôpital est un lieu où l’on soigne beaucoup, mais où l’on meurt beaucoup aussi… Or, la déclaration de décès a lieu dans la mairie du lieu de décès. A Marseille, dans la mairie de l’arrondissement de décès. Vous m’avez compris… Les statistiques dont il est question ici doivent inclure, selon mon hypothèse, les décès constatés dans les établissements de santé de l’arrondissement. Pas étonnant que la surmortalité soit si importante dans le cinquième arrondissement. L’hypothèse est d’autant plus plausible que l’hôpital de la Timone reçoit régulièrement de grands blessés venant de toute la région, qui y sont héliportés. Sont donc comptabilisés des personnes qui ne sont même pas habitants de la commune.

Conclusion : si les statistiques sont établies comme je le suppose (je ne demande qu’à me tromper), alors cette carte ne sert à rien du tout et l’article non plus.

Add : les certificats de décès mentionnent le lieux de décès (hôpital, domicile, etc.). Il est donc normalement facile de corriger les statistiques de l’état civil pour tenir compte de cette particularité. Ce qui épaissit le mystère…

Test antidopage : le cas Contador.

Dans cet article, un spécialiste de la lutte contre le dopage affirme sa certitude que le test positif au Clenbutérol de Contador, lors du tour de France 2010, ne lui vaudra aucune sanction, et que sa version est la bonne. Rappelons que Contador a été testé positif un jour de repos, après un test négatif la veille, et a justifié ce test positif par le fait d’avoir consommé un steak qui devait contenir du Clenbutérol (celui-ci est initialement un produit vétérinaire). Or comme le produit ne peut servir qu’en cure longue, ou de façon ponctuelle un jour d’effort, il est absurde d’en avoir pris un jour de repos.

Je n’ai pas de compétence médicale ou pharmacologique; je suis néanmoins frappé de constater que l’hypothèse sous-jacente de ce spécialiste, c’est que le test positif et les tests négatifs précédents sont tous justes. Mais est-ce vraiment le cas? C’est l’occasion d’illustrer le problème statistique posé par ce genre de tests.

(Lire la suite…)

Chiffres en folie : le coût des cyberattaques

On a récemment attiré mon attention sur cet article du Figaro, dont l’auteur essaie d’évaluer le coût des cyberattaques. Le désarroi de l’auteur de l’article est visible : ayant cherché diverses sources d’information, il a bien du mal à relever la moindre cohérence. Un chiffre, surtout, sort du lot : selon une étude commandée par McAfee, en 2008, les cyberattaques auraient coûté environ 1000 milliards de dollars à l’économie mondiale, soit 1.64% du PIB mondial (admirez la précision des deux chiffres après la virgule).

Un chiffre comme celui-ci, aussi rond qu’énorme (aujourd’hui, c’est à partir de plusieurs centaines de milliards de dollars qu’un problème devient important: ca n’arrange pas les affaires du Dr Evil) suscite les soupçons. Il est totalement incohérent avec les autres évaluations données dans l’article : si les cyberattaques coûtent 560 millions de dollars en 2009 aux USA, comment atteindre les 1000 milliards de dollars dans le monde en 2008?

J’avais montré, il y a quelques temps, que le coût mondial de la contrefaçon était estimé d’une manière absurde, avec un chiffre totalement faux qui subsistait obstinément dans toutes les évaluations, avec untel qui cite le chiffre en faisant référence à machin, lequel le tient de bidule, qui le tient lui-même d’untel. Ce chiffre de 1000 milliards de dollars pour le coût des cyberattaques est en train de suivre le même processus. L’article indique ainsi que le chiffre a été cité lors d’un forum des Nations-Unies sur la cybersécurité, qui fait référence à des données d’Europol, qui elle-même fait référence… à l’étude de McAfee. C’est comme cela qu’un chiffre finit par « faire autorité », pour reprendre les mots de l’auteur. Mais comment ce chiffre a-t-il été déterminé?

(Lire la suite…)

L’article qui m’énerve au réveil du jour

… Est cet article du monde (une reprise de dépêche afp) indiquant que selon une étude médicale, la sédentarité double le risque d’embolie pulmonaire chez les femmes. Celles qui restent assises plus de 40h par semaine ont un risque double par rapport à celles qui restent moins de 10h.

Ok. Sauf qu’indiquer qu’une probabilité « double » n’a aucune signification pratique si vous n’indiquez pas le risque initial. Considérez une maladie que j’ai une chance sur un million d’attraper: si ce risque passe à 6 chances sur un million, il est multiplié par 6: il reste, malgré cela, dérisoire.

Par contre, si je joue à la roulette russe, j’ai une chance sur 6 de perdre. Que ce risque soit multiplié par 6, équivaut a remplir le barillet et à avoir la certitude de mourir. La même « multiplication du risque par 6″ a des conséquences extrêmement différentes. Parler de variation d’un risque sans indiquer « par rapport a quel risque de base », ce n’est pas de l’information, mais de la foutaise.

Si vous suivez l’information, pourtant, vous verrez que ce risque de base n’est pour ainsi dire jamais précisé lorsqu’un article indique qu’un risque est « augmenté d’un certain pourcentage ». Il faut dire que « des scientifiques montrent que manger de la roquette augmente votre risque de cancer du gros orteil de 40% » est un titre bien plus accrocheur que « fait passer le risque de 1 a 1,4 sur 10 000″. Ce procédé est d’ailleurs souvent utilisé par des militants pour exagérer une cause.

Et le matin, ça m’énerve.

Un jour ordinaire dans le monde merveilleux des faux nombres

Je n’aurai pas dû lire Proofiness. cet excellent livre, sur la façon dont les chiffres sont torturés, manipulés, par journalistes, politiques, militants, magistrats, a un gros défaut : il n’est plus possible ensuite de lire le journal sans sauter au plafond d’énervement. Trois exemples du jour.

(Lire la suite…)

Journée mondiale de la statistique : Pour un "more or less" français

Vous ne le savez peut-être pas, mais en ce 20-10-2010 (quel beau nombre) c’est la journée mondiale de la statistique. A cette occasion, je lance un appel aux télévisions, radios, médias français de manière générale, pour la création d’une émission qui serait instructive, amusante, et qui accomplirait une véritable mission d’utilité publique : une émission, ou une chronique hebdomadaire dans une émission, de décodage des nombres qui font l’actualité.

Quelques exemples de sujets qu’une telle chronique aurait pu traiter, rien qu’avec l’actualité récente :

- Au loto israelien, la même combinaison est sortie à moins de deux mois d’intervalle. Est-ce si exceptionnel? les lecteurs avisés constateront que l’article ci-dessus comprend, sinon des erreurs, au moins de grandes imprécisions (vous pouvez vous amuser à les relever, pas un nombre de l’article ne correspond à l’explication donnée).

- Que signifient exactement les marges d’erreur d’un sondage? A quel point peut-on se fier à ceux-ci, que veulent-ils dire? (oui, je fais ma pub)

- Un chef de service de cardiologie dans lequel est relevé une surmortalité déclare « opposer l’éthique aux statistiques« . Mais d’où peut venir effectivement une telle surmortalité? Courez-vous vraiment des risques à vous faire soigner dans cet hopital?

- Un sujet sur le comptage des manifestants aurait été aussi possible.

De manière générale, l’actualité est nourrie de sondages, de chiffres (délinquance, données économiques, prévisions, études médicales…) qui ne sont que très rarement expliqués et décodés. Les publicités sont envahies de chiffres chargés de convaincre le spectateur. Et l’explication de ces chiffres n’est pour ainsi dire jamais faite, ou alors, abominablement mal (ha, les reportages sur le panier de la ménagère qui augmente, ma petite dame, c’est la faute au passage à l’euro, 10 ans après…). Jamais nous n’avons été autant environnés de nombres, et jamais ils ne sont expliqués simplement et clairement.

Une telle émission de décodage existe, en Grande-Bretagne : c’est l’émission de radio produite par la BBC appelée More or Less, présentée par Tim Harford. Si vous ne le faites pas déjà, vous pouvez l’écouter en podcast. Elle donne l’exemple de ce que peut constituer un programme à la fois distrayant et instructif sur ces questions, mais des tas d’autres formes peuvent être mises en place. Vous êtes une radio, une télé, un journal, vous cherchez un concept original et intéressant? Ce genre d’émission ne coûte pas cher (il suffit d’aller faire des interviews) mais il lui faut des moyens minimum; elle serait vraiment, vraiment utile, et pourrait être destinée à tous les publics.

C’est donc l’appel du jour aux médias français. Voilà un concept qui ne demande qu’à être mis en place. Créez un More or less en France!

Sondages et marges d’erreur

Hier soir, Ceteris Paribus s’énervait sur twitter à propos de cet article du Point consacré à l’élection brésilienne expliquant que :

Un sondage de l’institut Sensus diffusé jeudi crédite Mme Rousseff, 62 ans, de 46,8% des intentions de vote et José Serra, 68 ans, de 42,7%. Cela « montre une grande probabilité que les deux candidats soient à égalité » car la marge d’erreur du sondage est de 2,2%, a expliqué un responsable de l’enquête.

Un coup classique du commentaire de sondage. Lorsque l’écart entre deux candidats devient plus petit que la marge d’erreur, on trouvera toujours quelqu’un pour dire que « la course est devenue très serrée ». Imaginez par exemple qu’un sondage pour l’élection présidentielle donne 51% pour le candidat A, 49% pour le candidat B, mais avec une « marge d’erreur » de 3% pour le sondage. Considérant implicitement que cette marge d’erreur signifie que le résultat du candidat A peut se trouver n’importe où entre 48% et 54%, et le candidat B n’importe où entre 46% et 52%, un spécialiste en politologie (option tiercé) vous dira qu’il est devenu très probable que le candidat B l’emporte malgré son retard dans les sondages.

C’est évidemment faux. Mais comment l’expliquer rigoureusement? J’ai alors fait appel à Arthur Charpentier pour qu’il concocte un de ces posts dont il a le secret sur le sujet. Arthur trouve que la « grande probabilité » en question est de… 2,6% de chances que Serra l’emporte. Effectivement, c’est énorme, la course Bresilienne est très serrée…

D’un côté, je comprends le « responsable de l’enquête » brésilien : plus la course à la présidentielle apparaîtra comme serrée, plus il aura l’occasion de vendre des enquêtes. On pourrait dire aussi que l’article nous indique que l’avance de Roussef dans les sondages diminue, étant passée de 6 à 4 points. C’est énorme! Cela signifie que les chances de victoire de Roussef sont passées de 99,8% à 97,4%. Un effondrement total, effectivement…

Ironiquement, cette erreur des commentateurs correspond à une incompréhension de la signification de la marge d’erreur. Lorsqu’on dit que « le sondage donne 48% d’intentions de vote au candidat, avec une marge d’erreur de 2% » cela signifie la chose suivante : « il y a 95% de chances qu’un autre sondage donne un résultat compris entre 46 et 50% si les intentions de vote restent inchangées à 48% ».

En somme, supposez un candidat dont les intentions de vote restent obstinément à 48%. Il est extrêmement probable que, de sondage en sondage, on observe du « bruit », c’est à dire qu’un sondage donnera un peu plus de 48%, un autre un peu moins; il est même tout à fait possible d’observer une séquence de sondages en dessous de cette valeur de 48%. Et cela n’a aucune signification.

Ce qui est très embêtant : si le seul commentaire de faibles variations dans les sondages était « ça n’a aucune signification » on se demande bien ce que pourraient raconter nos commentateurs politiques, capables de remplir des pages et des heures d’émissions d’analyses de haut vol à base de fluctuations infinitésimales d’un sondage à l’autre. S’ils n’avaient pas cela, ils seraient obligés de s’informer pour avoir des choses à raconter à leurs lecteurs. Faut pas déconner, non plus.