vendredi 11 septembre 2009

L'approche statistique


L'approche statistique

La statistique comprend 2branches complémentaires :
  • la statistique descriptive
  • la statistique inférentielle.

Les méthodes descriptives ont pour objectif d'apporter l'image la plus fidèle possible d'une population, à partir de l'observation des caractères disponibles. Les comptages, calculs de moyennes et indicateurs d'écart-type et de dispersion entrent dans ce cadre descriptif.


L'inférence statistique vise à tester des hypothèses, mettre en évidence des liaisons et effectuer des extrapolations générales à partir des observations recueillies. Les tests d'hypothèse, les méthodes d'analyse de la variance et de régression font partie de la panoplie des statistiques inférentielles.


La statistique descriptive s'attache à ce qui peut être déduit des données alors que l'inférence statistique cherche à déterminer ce que les données induisent. Toutes les méthodes mises en oeuvre se basent sur des concepts et des calculs mathématiques rigoureux. Et pourtant …

L'idée que l'on peut faire dire ce que l'on veut aux statistiques est très répandue. Beaucoup de statisticiens s'en s'ont amusés comme Georges Gallup qui affirmait « Je peux prouver l'existence de Dieu... statistiquement » ou Aaron Levenstein pour qui « Les statistiques, c'est comme les bikinis. Ce qu'elles révèlent est suggestif mais ce qu'elles dissimulent est essentiel ».

Il est vrai que dans ce domaine, il est facile de tricher par omission ou tout simplement, de se tromper d'indicateurs ou d'interprétation.


Paradoxe intox

Au delà des représentations partielles ou partiales des données, le raisonnement statistique peut être facilement sujet à des écueils dans lesquels même des utilisateurs au dessus de tout soupçon peuvent tomber. Le paradoxe de Simpson met en évidence l'un de ces pièges. Pour l'illustrer, prenons le cas d'une entreprise ayant recruté durant l'année 30 hommes et 8 femmes. La première impression est qu'il y a une forte discrimination entre hommes et femmes (79% vs 21%). Si on sait toutefois que l'entreprise avait reçu 122 candidatures masculines et 42 candidatures féminines, on peut dire qu'un homme qui se présente a 25% (20/122) de chances d'être recruté contre seulement 19% pour une femme (8/42), ce qui reste anormal. Peut-on accuser cette entreprise de sexisme et d'hostilité aux femmes ? En réalité, c'est tout à fait le contraire si on sait qu'il y a eu 2 recrutements différents, l'un en début d'année et l'autre en fin d'année. Comme le montre le tableau ci-contre, 95 hommes se sont présentés au 1er recrutement et 28 ont été retenus (29%). 6 des 20 femmes candidates ont également été embauchées (30%). Lors du 2ème recrutement, 27 hommes et 22 femmes se sont présentés. 2 hommes et 2 femmes ont été retenus (soit respectivement 7 et 9% des candidats). On voit bien dans cet exemple qu'à chacun de ses recrutements, l'entreprise a embauché plus de femmes que d'hommes en proportion des candidats alors que l'agrégation des données laissait à penser le contraire.

L'intuition statistique peut être mise à défaut dans bien d'autres situations, conduisant à de faux calculs et/ou de fausses conclusions. Le cas du taxi énoncé par les prix Nobel d'Economie Kahneman et Tversky illustre par exemple la propension courante à négliger les probabilités à priori et à surévaluer ainsi la représentativité d'un échantillon. Dans cet exemple, dans une ville où 15% des taxis sont bleus (les autres étant jaunes), un piéton est renversé par un taxi qui prend la fuite. Un témoin indique que le taxi était bleu. Après l'avoir testé dans des conditions de visibilité similaires, on calcule que ce témoin se trompe seulement 1 fois sur 5. Pouvons-nous affirmer avec certitude, au regard de ces éléments, que le taxi était effectivement bleu ?

A première vue, on est tenté de répondre oui, en avançant une probabilité de 80%. En y regardant de plus près (et en appliquant le théorème de Bayes), la probabilité pour que le taxi soit effectivement bleu est de 41% seulement. Il y a donc plus de chances que le taxi soit d'une autre couleur. En effet, la probabilité a priori que le taxi soit bleu est de 15%. En tenant compte de la fiabilité du témoin, la probabilité que le témoin ait jugé le taxi bleu alors qu'il est vraiment bleu est de 80%. La probabilité qu'il l'ait vu bleu alors qu'il était jaune est de 20%. La probabilité a posteriori que le taxi soit vraiment bleu alors qu'il a été vu ainsi est de (15%*80%)/(15%*80%+85%*20%)= 41%.

Il est fâcheux que l'on se trompe dans la mise en œuvre ou l'interprétation des données statistiques. Mais ce n'est jamais aussi grave que lorsque les erreurs concernent des domaines scientifiques et médicaux. On retrouve fréquemment dans tous les autres domaines d’utilisation de la statistique et notamment les études marketing.

La principale de ces erreurs est la conclusion abusive de causalité entre différents événements pour lesquels une corrélation a été établie. Pourtant, il est une évidence qu’aucun utilisateur de statistiques ne doit ignorer et a fortiori pas un scientifique : deux variables peuvent être parfaitement corrélées sans pour autant avoir une quelconque relation ou influence l'une sur l'autre. Ainsi, il existe une corrélation quasi parfaite entre l'évolution de l'âge d'un groupe de personnes et le cours de l'Euro depuis 2001 (les deux augmentent régulièrement). On peut difficilement envisager dans ce cas que l'un des éléments ait pu influer sur l'autre.

"Il arrive aussi que des éléments très corrélés proviennent d'une cause commune, tout en étant parfaitement indépendants. Ainsi, le psychologue et sociologue Paul Watzlawick rapporte que l'on avait retrouvé dans les années 50 une très forte corrélation entre la mortalité infantile au Japon et la consommation de bière sur la côte ouest des Etats-Unis. Ces deux phénomènes qui n'avaient rien à voir l'un avec l'autre étaient en fait dûs tous deux à la vague de chaleur dans le pacifique qui avait causé des problèmes sanitaires importants dans un Japon à peine remis de la 2ème guerre mondiale et avait par ailleurs poussé les américains à consommer plus de boissons fraîches."

De nombreuses études tombent dans cet écueil : la corrélation entre l'utilisation de crèmes solaires et les cancers de la peau ne signifie pas que les premières causent les seconds. C'est un troisième facteur, l'exposition au soleil, qui entraîne probablement les deux.

La conclusion :
  • les producteurs de statistiques (scientifiques, chercheurs en sciences humaines, chargés d’études...) doivent bien connaître les risques d’erreurs ci-dessus pour essayer à tout prix de les éviter en blindant leurs raisonnements à la lumière des bonnes règles mais aussi du bon sens.
  • Pour leur part, les destinataires des statistiques (politiciens, économistes, décideurs en entreprise...) doivent manipuler les données avec recul, en se rappelant toujours qu’en statistiques aussi, le risque zéro n’existe pas.


Marketing Insolite
A fond sur les Buzzs

Aucun commentaire:

Enregistrer un commentaire