Le paradoxe de Simpson

June 24, 2025

4 minutes

Où l’on comprend pourquoi les chiffres ne mentent jamais mais qu’ils ne disent pas toujours la vérité non plus.

Arrêtez de vous faire carotter

Imaginez : vous êtes une femme et vous venez de recevoir une offre d'emploi chez The Average Company. Mais le salaire proposé ne vous convainc pas complètement, alors vous cherchez à comprendre vos perspectives d’évolution salariale au sein de l’entreprise.

Vous interrogez votre futur employeur sur la proportion de salariés ayant bénéficié d’une augmentation l’année dernière. En toute transparence, l'entreprise vous fournit ces chiffres :

  • 49% des hommes ont été augmentés.
  • 42% des femmes ont été augmentées.

A priori, voilà une entreprise où il ne fait pas bon être une femme. Vous envisagez de décliner l'offre.

Mais une amie, salariée de cette même entreprise, nuance ce tableau : à la direction Financière, où elle travaille, voici les taux réels d’augmentation :

  • 75% des hommes ont été augmentés.
  • 83% des femmes ont été augmentées.

Ces données vous laissent perplexe. Vous demandez alors les données du second département (par simplification, on suppose que l’entreprise n’en comprend que deux), celui des Opérations. Et là, grosse surprise :

  • 32% des hommes ont été augmentés
  • 36% des femmes ont été augmentées

Comment les femmes peuvent-elles être moins bien traitées au global, mais mieux dans chacun des cas particuliers ? L’entreprise est-elle nulle en calcul ?

Dites bonjour au paradoxe de Simpson.

Le paradoxe de Simpson désigne une situation où la tendance observée dans plusieurs groupes s'inverse lorsqu'on regroupe ces mêmes groupes. C’est contre-intuitif mais ce cas de figure est assez fréquent.

Revenons à notre exemple, et regardons les chiffres dans le détail. Imaginons que The Average Company compte 150 salariés : 100 hommes et 50 femmes.

Nous retrouvons bien les chiffres exposés. Il n'y a donc pas d'erreur !

Pourquoi ce paradoxe ?

Le paradoxe de Simpson est lié à la conjonction de deux facteurs :

Une différence significative d’effectifs entre les sous groupes

Dans l’exemple de The Average Company, on note ainsi que :

  • La direction des Opérations comprend plus de deux fois plus de salariés (augmentés à 34%) que la direction Financière (augmentés à 76%) ;
  • Les femmes sont moins représentées au sein de la Direction financière (6 sur 46, soit 13% des effectifs) que de la Direction des Opérations (44 sur 104, soit 42% des effectifs).

L’existence d’un facteur de confusion

Un facteur de confusion est un élément qui agit à la fois sur la cause et la conséquence. Ici c’est le département, qui joue ce rôle : il influence à la fois la répartition hommes/femmes et la probabilité d’être augmenté.

Un paradoxe omniprésent

Le paradoxe de Simpson (qui n’en est donc pas vraiment un) n'est pas une rareté mathématique.

On le retrouve dans certaines analyses sur l’efficacité des vaccins contre la Covid-19. Le facteur de confusion était que le vaccin était administré prioritairement à des populations vulnérables, modifiant ainsi les résultats globaux apparents.

Il est aussi à la base de certaines affirmations bancales. Par exemple, savez-vous que les fumeurs courent statistiquement plus vite que les non fumeurs ? Ici le facteur de confusion est le sexe : les hommes fument davantage et courent généralement plus vite que les femmes.

Trois leçons à retenir

  1. Corrélation n'est pas causalité : Un lien statistique apparent entre deux phénomènes ne signifie pas forcément que l’un provoque l’autre. Des facteurs cachés influencent souvent ces résultats, rendant les analyses superficielles trompeuses.
  2. L’accès aux données se démocratise, mais leur analyse nécessite de l’expertise : Le paradoxe de Simpson apparaît partout où l’on utilise des données agrégées sans prudence. L’identification des facteurs de confusion est souvent bien plus difficile que dans les exemples que nous avons pris. Restons vigilants et posons nous la question des facteurs cachés.
  3. Attention à l’analyse rétrospective : Pour contourner ces biais, la meilleure approche reste la méthode prospective randomisée. C’est celle que l’on retrouve notamment pour les essais cliniques. Dans notre cas d'étude, elle consisterait à affecter aléatoirement les nouvelles recrues dans l’un des deux départements et constater à la fin de l’année celles qui ont été augmentées. Comme vous le devinez, cette démarche n’est pas toujours simple à mettre en œuvre !

Maintenant vous pouvez vous amuser à identifier ces biais d'analyse dans les chiffres qu'on vous partage. Vous ne devriez pas avoir longtemps à attendre ...

Avant de partir

Cet article a été inspiré par l'excellent épisode de la chaine Science Étonnante consacré au paradoxe de Simpson. Ne le manquez pas si vous voulez vous assurer d'avoir bien compris !

Chercheurs de Nord est la newsletter de Polaris.

Chaque semaine de nouvelles connaissances pour continuer à apprendre.

Merci, votre inscription a bien été enregistrée !
Oups ! Vérifiez que votre adresse est correcte.