1 - Introduction aux tests d'hypothèses

Les tests d’hypothèses sont des outils statistiques d’aide à la décision. Ils vont permettre de comparer un ou plusieurs échantillons, et de valider ou d’invalider une hypothèse donnée.

Introduction

Les tests d’hypothèses ont pour enjeu de comparer des populations entre elles ou vis à vis d’un objectif. En testant les échantillons, on pourra déterminer si le résultat est significatif ou seulement dû au hasard. Ils peuvent ainsi être en support ou suppléer aux plans d’expériences et aux régressions pour analyser des relations de causes à effets. Les hypothèses peuvent être de toute nature. Nous pouvons avoir par exemple :

  • Le pourcentage de défaut a t’il réellement diminué suite aux actions menées ?
  • Avons vous significativement baissé le niveau de nos stocks ?
  • Est ce que plus de la moitié des salariés sont ils moteurs dans la démarche de progrès ?
  • Est ce que le fait de changer cette pièce a t’il réellement un impact sur la qualité des produits ?
  • ...

 

La lecture de ces tests doit permettre de pouvoir décider avec une conviction élevée de la conclusion.

Etape 0 : Définir l’objectif du test

L’objectif du test d’hypothèse est essentiel à définir dès le départ, car c’est cela qui va nous permettre de choisir le bon test et d’avoir une bonne lecture des résultats. Les tests d’hypothèses vont permettre de répondre à 3 objectifs :

  • Comparer un échantillon avec une cible
  • Comparer 2 échantillons entre eux
  • Comparer plus de 2 échantillons

 

Une fois l’objectif déterminé, le test d’hypothèse va être choisi en fonction du type de données que nous avons. Nous retrouvons les 3 tableaux suivants.

 

Comparer un échantillon avec une cible

Type de données

Qualitatif 2 modalités

Qualitatif, + de 2 modalités

Quantitatif

Exemple

On souhaite comparer un pourcentage de défaut (Bon / Pas bon) par rapport à un pourcentage cible.

On veut comparer des pourcentages pour des données réparties en diverses catégories

On veut comparer une moyenne ou un écart type par rapport à une cible souhaitée.

Test à utiliser

t de Student pour une proportion

Test du χGoodness of fit

t de Student pour une moyenne

Test χ2 pour un écart type

 

Comparer 2 échantillons entre eux

Type de données

Qualitatif 2 modalités

Qualitatifs, + de 2 modalités

Qualitatif ordinale

Quantitatif

Exemple

On souhaite comparer des pourcentages de défaut (Bon / Pas bon) de 2 échantillons.

On veut comparer des pourcentages pour des données réparties en diverses catégories.

On veut comparer le classement proposer par plusieurs jurys.

On veut comparer la moyenne ou l’écart type de 2 échantillons.

Données indépendantes

Test t de Student

Test du χ2 Test for Association

Test du Test χ2, test for association

Test de Wilcoxon-Mann Whitney

Test t de Student pour une moyenne

 

Test de Brown Forsythe ou Fisher Snedecor (Brown meilleur) pour des Variances

Données appariées

Test de McNemar

Test de Wilcoxon

Test de Wilcoxon 

Test t de Student pour des moyennes ou des Variances

 

Comparer plus de 2 échantillons

Type de données

Qualitatif 2 modalités

Qualitatifs, + de 2 modalités

Qualitatif ordinale

Quantitatif

Exemple

On souhaite comparer des pourcentages de défaut (Bon / Pas bon) de plusieurs échantillons.

On veut comparer des pourcentages pour des données réparties en diverses catégories.

On veut comparer le classement proposer par plusieurs jurys.

On veut comparer la moyenne ou l’écart type de plus de 2 échantillons.

Données indépendantes

Test du χTest for Association

Test du χTest for association

Test de Kruskal-Wallis

Tau de Kendall

Rho de Spearman

Anova pour des moyennes.

Test de Brown-Forsythe pour des variances.

Données appariées

Q de Cochran

Test de Friedman

Test de Friedman

Manova pour des moyennes

Anova en blocs

Test de Friedman

 

Test paramétrique VS non paramétrique

Dans les tableaux précédents, nous retrouvons 2 familles de tests :

  • Les tests paramétriques reposent sur la comparaison des différents groupes en faisant l’hypothèse d’un certain nombre d’éléments : la distribution est normale et la variance entre les échantillons est similaire.
  • Les tests non paramétriques reposent presque tous sur la notion de rangs. Le principe est de substituer aux valeurs leur numéro d’ordre dans l’ensemble des données. L’intérêt de ces tests est de pouvoir s’utiliser facilement pour des données quantitatives comme qualitatives et même les données ordinales ou nominales. Ils ont surtout un grand intérêt pour pouvoir analyser des données dont la distribution est non normale.

 

Dû au fait que l’on puisse s’affranchir de ces différentes hypothèses, l’étape 0 (Valider les conditions du test) de cet article n’est pas nécessaire.

 

 

Test non paramétrique

Test paramétrique

Nom du test

Friedman

Kruskal et Wallis

Wilcoxon-Mann Whitney

Wilcoxon

Q de Cochran

McNemar

Tau de Kendall

Rho de Spearman

Brown Forsythe

Fisher Snedecor

Student

Student pour données appariées

χ2

Manova

Anova et Anova en blocs

Avantage

Pas de conditions contraignantes à respecter

Permet de prendre en compte facilement les données qualitatives comme quantitatives et même ordinales

Moins sensible aux points aberrants

Adaptés pour de petits échantillons

Plus précis si les conditions sont établies.

Inconvénient

Moins précis que les tests non paramétriques.

Nécessite de répondre à des contraintes de normalités

Nécessite des variances « similaires » pour les tests qui comparent un autre paramètre que la variance.

 

Astuce WikiLean

D’une manière générale, on préfèrera toujours si les conditions sont réunis, un test paramétrique qui sont plus précis que les tests non paramétriques.

Etape 1 : Valider les conditions du test

Etape 0 d’un test d’hypothèse, s’assurer que nos données répondent à un certain nombre de critère pour éviter les erreurs et choisir le bon test. On va retrouver plusieurs conditions.

Distribution des données

Le plus généralement, les données suivent une loi normale. Cas le plus favorable. Mais parfois les données ne le sont pas et les tests que nous allons utiliser sont différents des tests standards. Ainsi, on va devoir effectuer un test d’ajustement qui va permettre d’identifier le type de distribution. En pratique, par défaut, on supposera que les données soient « Normale ».

En cas de doute, on peut s’affranchir de cette hypothèse en utilisant les tests non paramétriques. Moins précis, encore que..., que les tests paramétriques, ils permettent de se poser moins de questions sur le type de distribution ou même sur l’homogénéité des variances nécessaires pour les tests paramétriques.

Homogénéité de la Variance

Permettant le plus souvent de détecter des valeurs aberrantes, la plupart des tests sont efficaces si la Variance des échantillons est faible. Un test dit d’homoscédaticité est nécessaire pour identifier le niveau de variance et choisir le bon test.

Indépendance ou appariement des données

Le principe de l’appariement repose sur le fait de créer des paires de données pour réduire le risque d’une mauvaise lecture des résultats. Prenons exemple : nous souhaitons analyser le niveau de performance d’un additif pour réduire la consommation des véhicules. On aura 2 cas de figure.

Le premier, nous choisissons 10 véhicules que nous séparons en 2 groupes, dont 1 à qui l’on administrera l’additif. Nous leur faisons effectuer un trajet identique et nous comparons les consommations. Les résultats seront sans doute faussés car nous ne savons pas si les véhicules ont des consommations de base en correspondance.

Le second, on choisit 5 véhicules. On leur fait effectuer un même trajet, une première fois sans l’additif, une seconde fois avec. On compare les consommations par la suite.

On se rend compte que dans le second cas, nos mesures seront beaucoup plus précises. On s’affranchi de variabilités diverses qui faussent les résultats.

Plus de détails sur : http://www.tufts.edu/~gdallal/paired.htm

Taille des échantillons

D’une manière générale, on préfèrera toujours avoir des tailles d’échantillons similaires entre l’ensemble des groupes que l’on souhaite tester. En effet au plus les tailles seront similaires ou égales, au moins nous aurons de problèmes d’homogénéité des Variances.

Une autre règle générale, est qu’au plus nous avons de données, au plus celles-ci tendrons vers une distribution normale, cas le plus favorable. On recommande ainsi d’avoir une taille d’échantillon d’au moins 30 individus par groupe.

Ne pas avoir de valeurs aberrantes

Les valeurs aberrantes sont bien entendu sources de résultats faussés. Même si certain test, particulièrement les non paramétriques, sont robustes vis à vis de ce type de valeurs, il est nécessaire de les supprimer en amont de l’étude.

Etape 2 : Poser les hypothèses

Expression des hypothèses

Le principe d’un test d’hypothèses est de comparer la probabilité d’une hypothèse versus le contraire de cette même hypothèse. Par exemple, on va souhaiter comparer l’hypothèse que nous avons 3% de défaut contre l’hypothèse qu’il n’y a pas 3% de défaut.

On nomme dès lors :

  • Hypothèse nulle H0 : c’est l’hypothèse où l’on n’apprend rien et donc celle où nous rejetons l’hypothèse comme quoi notre résultat est significatif. Autrement dit, notre résultat est obtenu par hasard, par chance. Dans ce cas, ρ = 0. Par exemple, pour le choix d’un médicament, l’hypothèse nulle sera celle où ce médicament n’a pas d’effet. On retiendra que l’hypothèse H0 est toujours exprimée avec une égalité.
  • Hypothèse alternative H1 : c’est l’hypothèse où l’on apprend quelque chose et donc où le résultat testé est significatif, autrement dit, autre chose que le hasard s'est produit. Autrement dit, les données collectées présentent une différence statistique. Dans ce cas ρ ≠ 0. Elle représente en réalité ce que nous souhaitons savoir sauf si ce que nous souhaitons savoir est une égalité.

 

Par exemple, nous pensons que nous avons 3% de défaut en moyenne et nous voulons le tester. Nos hypothèses seront :

  • H0 : notre pourcentage de défaut est égal à 3%
  • H1 : nous avons un pourcentage de défaut différent de 3%

Le sens du test

On peut également définir de quel côté penche la balance. Pour cela, on va pouvoir donner un sens au test et l’on exprimera nos hypothèses de la manière suivante :

  • H  = 3% et H1 ≠ 3% : On défini un test bilatéral
  • H  = 3% et H1 < 3% : On défini un test unilatéral à gauche
  • H  = 3% et H1 > 3% : On défini un test unilatéral à droite

Etape 3 : Identifier la Valeur Pratique

Appelé également statistique de test, c’est la valeur calculée à partir de nos échantillons que nous allons comparer à la valeur critique. Il y a de nombreuses manières de calculer, ceci en fonction de la situation et de ce que nous souhaitons faire.

Cette valeur se calcule en fonction du test que nous avons choisi initialement. Elle est donc décrite en détail dans chacun de ceux-ci.

Etape 4 : Choisir le niveau de risque

Dans les tests d’hypothèses, on va retrouver 2 types de risques qui sont synthétisés dans le tableau ci-dessous.

 

Vérité

H0

H1

Décision

H0

Conclusion correcte

Erreur de seconde espèce

H1

Erreur de première espère

Conclusion correcte

 

Autrement dit, par définition :

  • Un risque de première espèce, appelé α : Risque d’erreur de rejeter l'hypothèse nulle alors qu'elle est vraie (appelé également seuil de signification). Il est le risque de voir un évènement alors qu’il n’y en a pas (on condamne un innocent). 
  • Un risque de seconde espèce, appelé β : c'est le risque lié au fait de retenir l'hypothèse nulle alors qu'elle est fausse. Il est donc le risque de ne pas voir un évènement alors qu’il y en a un (on acquitte un coupable).

 

La puissance statistique

 

Calculé par la formule 1 - β, la puissance doit être logiquement être la plus grande possible, soit avec un risque de seconde espèce le plus faible possible.

Plus clairement, la puissance statistique représente la probabilité de rejeter H0 lorsque H0 est fausse et représente donc notre probabilité à détecter une différence.

Idéalement 0,8 et plus pour permettre de détecter un écart raisonnable à l'hypothèse nulle.

La puissance dépend de plusieurs paramètres : la taille de l'effet à mettre en évidence, la taille de l'échantillon, le risque de base et le risque α.

Puissance

 

En pratique il est d’usage de fixer le risque d’erreur α à 5% et le risque β à 10%. Ce sont des valeurs fixées arbitrairement uniquement par choix philosophique :

On préfère accepter un lot mauvais que de refuser un lot bon ou encore acquitter un coupable plutôt que condamner un innocent.

Ainsi, on contrôle mieux le risque associé à l’erreur de première espèce, qui est considéré l’erreur la plus grave. Ces deux risques α et β étant antagoniste, choisir un risque α trop petit va conduire à ne rejeter que très rarement H0. Au contraire, choisir un risque trop grand va conduire à n’accepter que très rarement. Le risque se déduit alors par le calcul, si la loi sous H1 est connue.

Le niveau de confiance se calcule selon la formule suivante : 1 – α où α est nommé le risque.

Exemple :

Considérons le test des hypothèses suivantes :

  • Hypothèse H0 : le patient doit être hospitalisé,
  • Hypothèse alternative H1 : le patient ne doit pas être hospitalisé.

 

L’erreur de première espèce consiste à ne pas hospitaliser un patient qui en avait besoin. Cette erreur est très grave, puisqu’elle peut conduire au décès du patient. Le risque de deuxième espèce, qui consiste à hospitaliser un patient qui n’en avait pas besoin peut s’avérer moins grave.

Un autre exemple pour un nouveau médicament, l’erreur de première espèce consiste à mettre sur le marché un médicament qui n’a pas d’effet.

Etape 5 : Etablir la règle de décision

Le principe est plutôt simple. On va calculer à partir du niveau confiance défini précédemment la valeur critique du test. Cette valeur critique sépare 2 zones de choix :

  • Zone de rejet : ensemble des valeurs où la statistique de test est peu vraisemblable car on a retenu H0.
  • Zone de non rejet : ensemble formé par les autres valeurs dans le cas où l’on rejette H0 et donc on retient H1.

 

Les tests Unilatéral ou Bilatéral

Pour toutes les lois, nous pourrons choisir entre des tests Bilatéraux et des tests unilatéraux. La représentation graphique de cette notion est la suivante :

Type de test

Graphique

Utilisation

Règle de décision

Test Bilatéral 

On prendra pour notre calcul une valeur α divisé par 2

Bilatéral

On souhaite savoir si notre valeur est différente de la valeur de test. 

Exemple : la moyenne de cet échantillon est il différent de celui-ci

- valeur critique > Valeur pratique > + valeur critique → Rejet de H0

On conclue que nos deux échantillons sont différents.

Test Unilatéral à gauche

On prendra pour notre calcul une valeur α égale au risque total

Unilatéral gauche

Savoir si notre valeur est inférieure à la valeur de test.

Exemple : la moyenne de consommation du nouveau véhicule est elle sensiblement inférieure à l’ancienne.

Valeur pratique < Valeur critique  → Rejet de H0

On conclue que notre échantillon 1 est bien inférieur à l’échantillon 2.

Test Unilatéral à droite

On prendra pour notre calcul une valeur α égale au risque total

Unilatéral droite

Savoir si notre valeur est supérieure à la valeur de test.

Exemple : la durée de vie des nouvelles machines à laver est elle supérieure aux anciennes

Valeur pratique > Valeur critique → Rejet de H0

On conclue que notre échantillon 1 est supérieur à l’échantillon 2

Calculer la valeur critique

La valeur critique se lit généralement sur des tables spécifiques qui ont été élaborée par les concepteurs de ces principes statistiques. Leur choix va dépendre du tableau de l’étape 2 lié aux valeurs pratiques. Chacun suit une loi différente en fonction de conditions indiquées.

La valeur critique va dans la plupart des cas se calculer en fonction du nombre de degré de liberté (voir ci-dessous).

Le calcul va dépendre des cas que nous rencontrons. Nous ne les listons pas tous là, seulement les principaux, les valeurs très spécifiques étant indiquées dans les articles en question (voir par exemple les plans d’expériences).

 giugiu

Astuce WikiLean

Notion de degré de liberté

 

Le nombre de degrés de liberté est une mesure de la quantité d'informations que l’on peut obtenir d'une observation. Plus nous disposons de degrés de liberté, plus nous disposons d'informations.

Par exemple, dans l'équation A * B = 10, nous avons 2 solutions :

  • Soit A = 2, donc B = 5
  • Soit A = 5, donc B = 2

 

Autrement dit, si nous bloquons l'un des 2 paramètres nous pouvons définir aisément l'autre. Nous avons donc dans ce cas 1 degré de liberté soit n - 1.

 

Etape 6 : calculer la p-Value

La p-Value, ou indice de significativité, est une notion importante dans les statistiques. Introduite par Fisher, elle va nous permettre d’identifier le niveau de « hasard » du résultat.

Elle suit bien évidemment la même loi du test utilisé.

Etape 7 : Prendre la décision statistique

7.1 Lecture de la comparaison entre la valeur pratique et la valeur critique

La lecture des résultats s’effectue toujours vis à vis de l’hypothèse nulle. Nous pouvons être dans 2 cas :

  • On a retenu H0 : on conclue que l’hypothèse alternative H1 n’est pas vraie.
  • On a rejeté H1 : on conclue que l’hypothèse alternative est vraie.

7.2 Lecture de la p-Value

La valeur de la p-Value va nous permettre d’identifier le niveau de « hasard » du test. Nous l’interprétons de la manière suivante :

  • P < α : le résultat est très significatif, et n’est pas dû au hasard
  • P > α : le résultat n’est pas significatif et dû au hasard

Etape 8 : Les tests Post Hoc

Dans le cas où l’on a comparé plus de 2 échantillons et que la conclusion statistique a mené au fait qu’un ou plusieurs sont différents des autres, on va mettre en œuvre des tests post hoc. Ces tests permettent d’identifier parmi les différents échantillons lequel ou lesquels diffèrent des autres.

On notera toutefois qu’une simple analyse par paire peut dans la plupart des cas suffire à identifier ces échantillons.

Source

D. Chessel, A. B. Dufour (2003) – Pratique des tests élémentaires

N. Boudaoud (2002) – Rappels statistiques

P. Dagnelie (1970) – Théories et méthodes statistiques

P. Sprent (1992) – Pratique des statistiques non paramétriques

D. Mouchiroud (2003) – Tests d’hypothèse

J. Jacques (2012) – Statistiques inférentielles

R. Rakotomalala (2008) – Comparaison de populations, test non paramétriques

E. Ouellet, I. Belley-Ferris, S. Leblond (2011) – Guide d’économétrie appliquée pour Stata

R. Rakotomalala (2013) – Comparaison de populations, test non paramétriques

J. Poirier (1999) – Estimateurs et tests d’hypothèses

M. Lejeune (2005) – Statistique : la théorie et ses applications

P. Capéraà, B. Van Cutsem (1988) – méthodes et modèles en statistique non paramétrique

V. Bhushan (1978) – Les méthodes en statistique

S. Tufféry (2010) – data mining et statistique décisionnelle : l’intelligence des données

Norme NF X06-064

Evaluer cet article

1 - Introduction aux tests d'hypothèses
  • Actuellement 0 sur 5 étoiles
  • 1
  • 2
  • 3
  • 4
  • 5
Rating: 0/5 (0 votes cast)

Merci d'avoir participé !

Vous avez déjà noté cette page, vous ne pouvez la noter qu'une fois !

Votre note a été changée, merci de votre participation !

Identifiez vous ou enregistrez vous pour noter cette page.

Avis des internautes

Il n'y a aucun commentaire.

Vous n'avez pas la permission de poster des commentaires.

Identifiez vous ou enregistrez vous pour commenter cet article.