Contradictions dans des réponses multiples ?

En mars 2013, un sondage IFOP pour le JDD plaçait C. Lagarde et M. Le Pen en tête, pour le souhait d’un rôle futur plus important, avec 34% et 31% respectivement. Une partie des médias a alors commenté en invoquant les “contradictions” des français. Je reviens sur ce que ces chiffres permettent réellement de conclure.

Le contexte

Il y a plusieurs mois paraissaient les résultats d’un sondage sur le rôle futur des femmes politiques françaises, avec comme question principale : “Parmi les femmes suivantes, quelles sont les quatre dont vous souhaiteriez qu’elles jouent un rôle plus important à l’avenir, dans la vie politique française ?”1 Le palmarès qui en ressortait donnait aux deux premières places : Christine Lagarde avec 34% et Marine Le Pen avec 31% de réponses positives.

Ce sondage a été alors largement commenté dans les médias, avec régulièrement l’évocation d’un caractère contradictoire de ces résultats. Un des articles du JDD analysant ce sondage mentionne d’abord en manchette “un choix qui reflète les contradictions des Français…” et détaille plus loin que “… le choix des français … résume les fractures et les contradictions de la société française…”.2 La sentence de contradiction — pour autant que l’on juge antinomiques les choix Lagarde et Le Pen — est-elle avérée au vu de ces chiffres et, si oui, à quel niveau : au niveau individuel ou au niveau collectif ? Certains commentaires un peu hâtifs me semblent avoir mélangé les deux niveaux qui peuvent pointer dans des directions apparemment opposées. Je mets ici en avant le point de vue individuel, en me centrant sur les seuls choix concernant C. Lagarde et M. Le Pen.

Questions à réponses multiples

Le type de question posé ici est une question à réponses multiples. Un individu donné peut avoir choisi Lagarde (L+) ou non (L-) et, de même, avoir choisi Le Pen (P+) ou non (P-), dans la liste de ses souhaits. Tout se passe donc comme si il y avait eu deux questions, une concernant Lagarde, l’autre concernant Le Pen. En fait, dès que l’on s’intéresse aux individus, il y a avantage à considérer une question à réponses multiples, non comme une question unique, mais comme autant de questions que de modalités proposées, m. Puisqu’on se restreint ici à deux personnalités (m = 2), il y a en fait deux questions binaires : question L, avec réponses L+ ou L- ; et question P, avec réponses P+ ou P-. Tout individu sera alors caractérisé par son profil de réponses, avec 2m = 22 = 4 profils : L+P+, L+P-, L-P+, L-P-, que l’on peut figurer dans un tableau 2 × 2 :

crm-1

Des marges aux cellules

Dans un tel tableau, on peut figurer les pourcentages de chaque profil, ainsi que les pourcentages marginaux. Dans la presse, ainsi que dans le rapport détaillé du sondage, seuls les pourcentages marginaux sont disponibles : 34% pour L+ (et donc 66% pour L-), 31% pour P+ (et donc 69% pour P-) :

crm-2

Si l’on en croit les commentateurs politiques, au niveau individuel, le profil “surprenant” est L+P+, c’est-à-dire la conjonction de L+ et de P+. Mais aucune information n’est donnée sur ce pourcentage conjoint. Cette information n’est pas disponible directement, mais on peut chercher l’ensemble des pourcentages conjoints qui seraient compatibles avec les marges observées. Aux deux extrêmes, on trouve ainsi les tableaux suivants :

crm-3

Dans le premier cas, aucun individu n’a répondu à la fois L+ et P+, et donc aucun individu n’a de profil surprenant. A l’autre extrême, il peut y avoir jusqu’à 31% d’individus surprenants. Ainsi, avec la seule information des pourcentages marginaux, 34% et 31%, le pourcentage de profils surprenants peut se situer n’importe où dans l’intervalle [0% − 31%]. Selon la vraie valeur de ce pourcentage, les conclusions d’un tel sondage seraient bien entendu fort affectées : à un extrême, on pourrait parler d’individus tous cohérents, mais appartenant à trois groupes disjoints radicalement différents (favorable à Lagarde, favorable à Le Pen, favorable à aucune des deux) ; à l’autre, on pourrait s’interroger sur la forte proportion (31%) d’individus incohérents.

Le rapport détaillé de l’IFOP-JDD permet en fait d’aller un peu plus loin. Lorsque l’on étudie les mêmes deux questions en ventilant les individus selon leur proximité politique, les pourcentages marginaux de L+ et P+ sont respectivement :

  • Gauche : 14% et 9%
  • Modem : 32% et 8%
  • Droite : 53% et 54%
  • Aucune formation : 34% et 32%

Le pourcentage de profils surprenants, par proximité politique, est alors nécessairement à l’intérieur des intervalles suivants :

  • Gauche : [0% – 9%]
  • Modem : [0% – 8%]
  • Droite : [7% – 53%]3
  • Aucune formation : [0% – 32%]

Au vu de ces chiffres, il est en fait tout à fait possible que, hormis 7% des sympathisants de droite, tous les individus soient cohérents dans leurs réponses.

Conclusions

La “morale” de ce petit exemple ? Il y en a plusieurs à mon sens, de nature et de portée différentes :

  • La meilleure façon de traiter une question à réponses multiples est de considérer qu’il y a en fait autant de questions (binaires) que de réponses possibles. Cette approche permet aussi bien le traitement usuel, qui revient à ne s’intéresser qu’aux marges, qu’un traitement plus poussé qui autorise l’accès aux profils de réponse.
  • Pour “faire simple”, les résultats d’enquêtes fournis à la presse sont souvent limités aux tris à plat. Mais, en conséquence, les conjonctions, les profils de réponse ne sont pas accessibles, alors que les informations issues de tris croisés pourraient êtres riches d’enseignements.
  • On mélange alors, sans trop distinguer, des considérations sur les individus et des considérations sur la population, avec toute l’ambiguité de phrases telles que “Les Français pensent que …”. Or on sait depuis longtemps que l’agrégation de choix individuels cohérents peut conduire à un choix collectif incohérent, notamment avec le fameux paradoxe de Condorcet.4
1 Sondage IFOP pour Le Journal du Dimanche, sur un échantillon de 990 personnes interrogées du 27 février au 1 mars 2013. Cf. ”Le palmares des femmes politiques – Résultats détaillés”, FD n° 111156, Mars 2013.
2 B. Jeudy, ”Lagarde et Le Pen, austérité et populisme”, Le JDD, 2 Mars 2013.
3 Les informations 53% pour L+ et 54% pour P+ implique 46% pour P− et donc au maximum 46% pour la case L+P−, et en conséquence un minimum de 53−46 = 7% pour L+P+.
4 Ce paradoxe est apparu dans un contexte électoral. Soient trois candidats, A, B et C. Si une majorité d’électeurs préfère A à B (A > B) et B à C (B > C), il est tout à fait possible qu’une majorité préfère C à A (A > C), même si chaque électeur est cohérent dans ses préférences.

Cliquez ici pour télécharger l’article au format PDF.

2 commentaires sur “Contradictions dans des réponses multiples ?

  1. Bonjour et merci pour cet article, dans le même registre, il y a un truc qui me turlupine depuis un bon moment déjà.
    Si à partir d’un sondage, on me dit que les Français préfèrent à 40% le candidat X avec un taux d’erreur disons de 2%, et si à partir du même sondage on me dit que, pas example, les ouvriers le préfèrent à 30%, a-t-on le même taux d’erreur?
    Meci à l’avance pour votre réponse
    xavier

    • Bonjour Xavier,

      La vaillance de votre curiosité, ainsi que le ‘bon moment’ depuis qu’elle vous anime, vous amène à pousser un peu loin le concept de ressemblance. Le « même registre » dites-vous, alors que mon article se concentre sur un point descriptif (commenter les données observées et elles-seules) relativement simple, pendant que votre interrogation nous emmène vers les terrains plus délicats des méthodes inductives (généraliser les résultats à une population plus vaste). Je vous parle « plaine », vous m’interrogez sur les « sommets enneigés » que l’on voit dans le lointain …
      Quoi qu’il en soit, le thème des « taux d’erreur » mériterait un article spécifique – voire plusieurs.

      En guise de réponse brève, je fais l’hypothèse que le « taux d’erreur » que vous évoquez est ce que les statisticiens appelent « demi-largeur de l’intervalle de confiance », et que celui-ci est calculé à la garantie de 0.95 (i.e. au seuil 0.05) – valeurs communément utilisées. Pour l’ensemble des Français, on a f=0.40 et e=0.02: ceci implique une taille d’échantillon voisine de n=2400 dans le sondage que vous évoquez. Que peut-on dire concernant les f1, e1 et n1 correspondants pour les Ouvriers (donnons leur de la majuscule aussi!). L’erreur e est d’autant plus grande que n est grand, mais d’autant plus petite que f s’éloigne de 0.50. En passant de (f=0.40,e,n) à (f1=0.30,e1,n1), le premier phénomène pousse e1 à augmenter par rapport à e, mais le second à baisser, puisque f1 est plus éloignée de 0.50 que f. Il y a en fait possibilité que ces deux phénomènes se compensent: pour n1=2100, on trouve même e1=0.02=e. Le même « taux d’erreur »!

      Certes la crise qui travaille notre pays est profonde, et ainsi la paupérisation grandissante, mais j’ai quelque espoir que la proportion de n1/n=2100/2400 = 87,5% d’ouvriers n’a pas encore été atteinte, dieux merci. Il y a ainsi fort à parier que n1/n est plus proche de 20%, et que e1 est ainsi plus de deux fois supérieur à e. [Ici e1 = e x racine(7n / 8n1), en gros]. Je vous fais grâce des détails …

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *