Où l’on comprend pourquoi les chiffres ne mentent jamais mais qu’ils ne disent pas toujours la vérité non plus.

Arrêtez de vous faire carotter.
REPÈRES
LES FAITS POUR DÉCIDER
Imaginez : vous êtes une femme et vous venez de recevoir une offre d'emploi chez The Average Company.
Mais le salaire proposé ne vous convainc pas complètement, alors vous cherchez à comprendre vos perspectives d’évolution salariale au sein de l’entreprise.
Vous interrogez votre futur employeur sur la proportion de salariés ayant bénéficié d’une augmentation l’année dernière. En toute transparence, l'entreprise vous fournit ces chiffres :
A priori, voilà une entreprise où il ne fait pas bon être une femme. Vous envisagez de décliner l'offre. Mais une amie, salariée de cette même entreprise, nuance ce tableau : à la direction financière, où elle travaille, voici les taux réels d’augmentation :
Ces données vous laissent perplexe. Vous demandez alors les données du second département (pour simplifier, supposons que l’entreprise n’en compte que deux),celui des Opérations. Et là, grosse surprise :
Comment les femmes peuvent-elles être moins bien traitées au global, mais mieux dans chacun des départements ? L’entreprise est-elle si mauvaise en calcul ?
Le paradoxe de Simpson désigne une situation où la tendance observée dans plusieurs groupes s’inverse lorsque ces groupes sont agrégés. C’est contre-intuitif mais ce cas de figure est assez fréquent.
Revenons à notre exemple, et regardons les chiffres dans le détail. Imaginons que The Average Company compte 150 salariés : 100 hommes et 50 femmes.
Nous retrouvons bien les chiffres exposés. Il n'y a donc pas d'erreur !
Le paradoxe de Simpson est lié à la conjonction de deux facteurs :
1. Une différence significative d’effectifs entre les sous groupes
Dans l’exemple de The Average Company, on note ainsi que :
2. L’existence d’un facteur de confusion
Un facteur de confusion est un élément qui agit à la fois sur la cause supposée et sur le résultat observé. Ici, c’est le département qui joue ce rôle : il influence à la fois la répartition hommes/femmes et la probabilité d’être augmenté.
Le paradoxe de Simpson (qui n’en est donc pas vraiment un) n'est pas une rareté mathématique.
On le retrouve dans certaines analyses sur l’efficacité des vaccins contre la Covid-19. Le facteur de confusion provenait du fait que le vaccin était administré prioritairement à des populations vulnérables, ce qui modifiait les résultats globaux apparents.
Il est aussi à la base de certaines affirmations bancales. Par exemple, savez-vous que les fumeurs courent statistiquement plus vite que les non-fumeurs ? Ici le facteur de confusion est le sexe : les hommes fument davantage et courent généralement plus vite que les femmes.
Maintenant, vous pouvez vous amuser à identifier ces biais d'analyse dans les chiffres qu'on vous présente. Vous ne devriez pas avoir longtemps à attendre ...
Cet article a été inspiré par l'excellent épisode de la chaîne Science Étonnante consacré au paradoxe de Simpson. À ne pas manquer si vous voulez vérifier que tout cela est bien clair.