Previous PageTable Of ContentsNext Page

3. INFERENCE STATISTIQUE

 

3.1. Tests d’hypothèses

Toute investigation de recherche avance à travers des cycles répétés de formulation et de vérification d’hypothèses concernant le phénomène étudié. Afin de décider objectivement si une hypothèse est confirmée par un ensemble de données, il faut adopter une procédure rationnelle pour l’acceptation ou le rejet de ladite hypothèse. L’objectivité est fondamentale, car l’une des règles de la méthode scientifique est d’arriver à des conclusions scientifiques par des méthodes publiques pouvant être répétées par d’autres chercheurs compétents. Cette procédure objective sera fondée sur les informations obtenues lors du travail de recherche et sur le risque d’erreur que nous acceptons de prendre, à propos de la justesse de l’hypothèse.

Les tests d’hypothèses se déroulent généralement en plusieurs étapes, à savoir : i) établissement de l’hypothèse nulle ; ii) choix d’un test statistique (avec le modèle statistique qui lui est associé) pour la vérification de l’hypothèse nulle ; iii) spécification du seuil de signification et de la taille de l’échantillon ; iv) détermination de la distribution d’échantillonnage du critère de test dans l’hypothèse nulle ; v) définition de la zone de rejet ; vi) calcul de la valeur du critère de test, à l’aide des données obtenues à partir du ou des échantillons et prise de la décision basée sur la valeur du critère de test et de la zone de rejet déterminée au préalable. Il est indispensable de bien assimiler la raison d’être de chacune de ces étapes pour comprendre le rôle des statistiques dans la vérification d’une hypothèse de recherche, comme celle que nous allons illustrer par un exemple concret.

i) Hypothèse nulle : La première étape de la procédure de prise de décision est l’établissement de l’hypothèse nulle, ordinairement dénotée par H0. L’hypothèse nulle est une hypothèse de différence nulle. Elle est généralement formulée dans le but d’être rejetée. Si elle l’est, l’hypothèse alternative H1 peut être acceptée. L’hypothèse alternative est la formulation opérationnelle de l’hypothèse de recherche de l’expérimentateur. L’hypothèse de recherche est la prévision dérivée de la théorie en cours de vérification. Lorsque nous voulons prendre une décision relative à des différences, nous vérifions H0 par rapport à H1. H1 est l’assertion qui est acceptée si H0 est rejetée.

A titre d’exemple, supposons qu’un aménagiste soupçonne une baisse de la productivité de plantations forestières d’une espèce particulière, dans une unité d’aménagement, du fait que cette espèce est continuellement cultivée. Ce soupçon constituera l’hypothèse de recherche. Sa confirmation renforcera la théorie selon laquelle le fait de cultiver sans interruption une espèce sur une surface aboutit à sa détérioration. Pour tester cette hypothèse de recherche, nous la prenons symboliquement comme hypothèse alternative, H1. H1 étant que le niveau de productivité actuel de l’espèce dans l’unité d’aménagement (m 1) est inférieur au niveau de productivité passé (m 0). Symboliquement, m 1 < m 0. L’hypothèse H0 serait m 1 = m 0. Si les données permettent de rejeter H0, H1 peut être acceptée, et l’hypothèse de recherche et la théorie qui la sous-tend sont confirmées. La nature de l’hypothèse de recherche détermine la formulation de H1. Si l’aménagiste n’est pas sûr du sens de la variation du niveau de productivité due à la culture continue, l’hypothèse H1 devient : m 1 ¹ m 0.

ii) Choix du test statistique : La discipline des statistiques s’est tellement développée que l’on a aujourd’hui le choix, pour presque tous les plans de recherche, entre plusieurs tests statistiques pouvant servir à éclairer la décision au sujet d’une hypothèse. La nature des données rassemblées détermine dans une large mesure le critère qui sera utilisé dans le test. Dans l’exemple qui nous occupe, supposons que les données sur le rendement en bois par unité de superficie, à un âge donné, puissent être dérivées d’un petit nombre de plantations ou parties de plantations récemment exploitées de taille à peu près similaire, situées dans l’unité d’aménagement. Sur la base de la théorie statistique pertinente, on pourrait choisir le critère de test suivant :

(3.1)

= rendement moyen, à un âge donné, des plantations récemment exploitées dans l’unité d’aménagement.

s = écart-type du rendement des plantations récemment exploitées dans l’unité d’aménagement.

n = nombre de plantations récemment exploitées, à partir desquelles les données peuvent être collectées.

m 0 = rendement moyen des plantations, à l’âge donné, dans l’unité d’aménagement, quelques décennies plus tôt, sur la base d’un grand nombre d’observations antérieures.

Le terme " statistique "  désigne une valeur calculée à partir des observations d’un échantillon. Le critère de test spécifié dans l’Equation (3.1) est le rapport de l’écart entre la moyenne de l’échantillon et la valeur prédéterminée m 0, à la variance de ces écarts, et la question qui se pose est de déterminer quelle est l’amplitude admissible de ces écarts, pour que l’hypothèse nulle soit vraie.

iii) Seuil de signification et taille de l’échantillon : Une fois que l’on a défini l’hypothèse nulle et l’hypothèse alternative, et sélectionné le test statistique approprié, l’étape suivante consiste à spécifier le seuil de signification (a ) et à choisir la taille de l’échantillon (n). La procédure de prise de décision se résume à rejeter H0 au profit de H1, si le résultat du test statistique est une valeur correspondant à une probabilité de réalisation, dans l’hypothèse H0, égale ou inférieure à une faible probabilité symbolisée par le signe a . Cette faible probabilité est appelée seuil de signification. Les valeurs les plus courantes de a sont 0.05 et 0.01. En d’autres termes, si la probabilité associée à l’obtention, dans H0 (c’est-à-dire quand l’hypothèse nulle est vraie) de la valeur spécifique résultant d’un test statistique, est égale ou inférieure à a , nous rejetons H0 et nous acceptons H1, qui est la formulation opérationnelle de l’hypothèse de recherche. Il s’ensuit que a indique la probabilité de rejeter par erreur H0.

Etant donné que la décision de rejeter ou d’accepter l’hypothèse H0 est en partie déterminée par la valeur de a , il est indispensable, pour des raisons d’objectivité, que a soit fixé avant la collecte des données. Le niveau auquel le chercheur choisit de fixer a devrait être fonction de l’importance ou de la signification pratique possible de ses constatations. Dans notre exemple, l’aménagiste peut fort bien choisir un seuil de signification plutôt bas, s’il y a un risque élevé de rejeter à tort l’hypothèse nulle (et, par conséquent, de préconiser ou de recommander sans que cela soit justifié un changement radical des pratiques de gestion, sur la surface considérée). Dans son rapport, l’aménagiste devrait indiquer le niveau de probabilité effectif associé à ses constatations, afin que le lecteur puisse décider lui-même s’il convient de rejeter ou d’accepter l’hypothèse nulle.

On peut commettre deux types d’erreurs lorsque l’on prend une décision à propos de H0. La première, dite Erreur de type I, est de rejeter H0 alors qu’elle est vraie. La seconde, que nous appellerons Erreur de type II, est d’accepter H0 alors qu’elle est fausse. La probabilité de commettre une erreur de type I est donnée par a . Plus a est grand, plus l’on a de chances de rejeter H0 à tort, c’est-à-dire de commettre une erreur de type I. L’erreur de type II est ordinairement représentée par le signe b ; on a donc P(erreur de type I) = a , P(erreur de type II) = b . Les valeurs de a et b sont de préférence spécifiées par le chercheur avant de commencer ses investigations. Ces valeurs détermineront la taille de l’échantillon (n) qu’il devra prélever pour calculer le critère du test statistique qu’il a choisi. Une fois que a et n ont été spécifiés, il faut calculer b . Dans la mesure où les probabilités de commettre les deux types d’erreurs sont inversement proportionnelles, une diminution de a entraînera une augmentation de b pour toute valeur de n. Pour minimiser le risque de commettre les deux types d’erreurs, il faut augmenter n. L’expression 1 - b désigne la puissance d’un test, c’est-à-dire la probabilité de rejeter l’hypothèse H0 alors qu’elle est fausse. Pour revenir à notre exemple, pour certaines raisons d’ordre théorique, nous dirons que la taille de l’échantillon est de 30 plantations ou parties de plantations de taille similaire choisies au hasard dans la série dans laquelle peuvent être rassemblées des données sur les niveaux de rendement récents de l’unité d’aménagement.

iv) La distribution d’échantillonnage : Une fois qu’un chercheur a choisi le test statistique qui sera utilisé avec ses données, il doit déterminer la distribution d’échantillonnage du critère de test, c’est-à-dire la distribution que l’on obtiendrait si l’on prenait tous les échantillons de même taille pouvant être prélevés dans une même population, chacun d’eux étant tiré au hasard, et si l’on établissait la distribution de fréquence de la statistique calculée à partir de chaque échantillon. On peut aussi dire que la distribution d’échantillonnage est la distribution, dans l’hypothèse H0, de toutes les valeurs possibles que peut prendre une mesure statistique quelconque (par exemple la moyenne de l’échantillon), lorsqu’elle est calculée à partir d’échantillons de même taille tirés au hasard. Pour revenir à notre exemple, s’il y avait 100 plantations d’un âge déterminé, disponibles pour la coupe, 30 plantations pourraient être tirées au hasard, de 2.937 x 1025 manières. A partir de chaque échantillon de 30 unités de plantation, il est possible de calculer une mesure statistique z, à l’aide de l’équation (3.1) . Dans ce cas, une distribution de fréquences relatives établie à l’aide d’intervalles de classes donnés pour les valeurs de z constituerait la distribution d’échantillonnage de notre critère de test statistique. Ainsi, la distribution d’échantillonnage d’un paramètre statistique montre la probabilité dans l’hypothèse H0 associée aux différentes valeurs numériques possibles dudit paramètre. La probabilité d’obtenir une valeur particulière du paramètre statistique dans l’hypothèse H0, englobe non seulement la probabilité de cette valeur, mais aussi les probabilités de toutes les valeurs possibles plus extrêmes. Il s’agit donc de la probabilité d’obtenir, dans l’hypothèse H0, une valeur aussi extrême ou plus extrême que la valeur particulière du critère de test.

Il est évident que dans notre exemple, il nous serait impossible de trouver la distribution d’échantillonnage réelle et de vérifier la probabilité d’obtenir des valeurs données, à partir d’une telle distribution. Nous nous reposerons donc sur des théorèmes mathématiques démontrés, qui font autorité. Ces théorèmes impliquent invariablement des postulats que l’on doit avoir présents à l’esprit, lorsqu’on les applique. Dans le cas présent, il peut être démontré que la distribution d’échantillonnage de z suit une loi normale de moyenne zéro et d’écart type 1 si la taille de l’échantillon (n) est grande. Lorsqu’une variable suit une loi normale, sa distribution est entièrement caractérisée par la moyenne et l’écart-type. Il est donc possible de déterminer la probabilité qu’une valeur observée de cette variable soit supérieure à une valeur donnée quelconque. Cette analyse et cet exemple montrent clairement que si l’on connaît la distribution d’échantillonnage d’une certaine mesure statistique, il est possible d’établir quelles sont les probabilités d’obtenir certaines valeurs numériques de cette mesure. Nous allons voir dans les sections qui suivent comment on utilise les probabilités ainsi formulées pour prendre une décision à propos de l’hypothèse H0.

v) La région de rejet : La distribution d’échantillonnage comprend toutes les valeurs que peut prendre le critère de test dans l’hypothèse H0. La région de rejet est formée d’un sous-ensemble de ces valeurs possibles, et est définie de telle manière que la probabilité associée à l’obtention, dans l’hypothèse H0 , d’une valeur du critère de test située dans ce sous-ensemble, soit une probabilité a . En d’autres termes, la région de rejet est constituée d’un ensemble de valeurs possibles qui sont si extrêmes que, si H0 est vraie, la probabilité est très faible (probabilité a ) que l’échantillon observé donne une valeur située dans ce sous-ensemble. La probabilité associée à une valeur quelconque se trouvant dans la région de rejet est égale ou inférieure à a .

L’emplacement de la région de rejet dépend de la nature de l’hypothèse H1. Si H1 indique le sens projeté de la variation, un test unilatéral s’impose, alors que dans le cas contraire, il faudra effectuer un test bilatéral (ou test à deux issues). Les tests à une ou deux issues diffèrent par l’emplacement de la région de rejet, (mais pas par la taille). Dans un test unilatéral (à une issue), toute la région de rejet est située à une extrémité de la distribution d’échantillonnage, alors que dans un test bilatéral (à deux issues), elle se situe aux deux extrêmes de la distribution d’échantillonnage. Dans notre exemple, si l’aménagiste estime que la productivité des plantations ne peut qu’être stable ou décliner au fil des années, il fera un test unilatéral. En revanche, s’il n’est pas certain du sens du changement, il aura intérêt à effectuer un test bilatéral (à deux issues).

La taille de la région est exprimée par le seuil de signification a . Si a = 0.05, cela signifie que la région de rejet représente 5 pour cent de la totalité de l’espace compris sous la courbe dans la distribution d’échantillonnage. Les régions de rejet unilatérales et bilatérales pour a = 0.05 sont illustrées à la Figure 3.1. Les régions diffèrent par leur emplacement, mais leur taille totale est la même.

vi) La décision : Si le test statistique donne une valeur qui se trouve dans la région de rejet, il faut rejeter H0. Ce processus décisionnel repose sur un raisonnement très simple. Si, dans l’hypothèse nulle, la probabilité d’obtenir une valeur particulière dans la distribution d’échantillonnage est très faible, l’apparition effective de cette valeur peut s’expliquer de deux manières : premièrement en décidant que l’hypothèse nulle est fausse, et deuxièmement, en décidant qu’un événement rare et improbable s’est produit. Dans le processus de décision, nous choisissons la première de ces explications. De temps en temps, c’est bien entendu la seconde qui est la bonne. De fait, la probabilité que la deuxième explication soit la bonne est donnée par a , car le fait de rejeter l’hypothèse H0 alors qu’elle est vraie est une erreur de type I.

Figure 3.1. Distribution d’échantillonnage de z dans H0 et régions de rejets d’un test unilatéral et d’un test bilatéral

Lorsque la probabilité associée à une valeur observée d’un test statistique est égale ou inférieure à la valeur déterminée au préalable de a , nous concluons que l’hypothèse H0 est fausse. Une telle valeur observée est qualifiée de significative. L’hypothèse H0, qui fait l’objet du test, est rejetée dans tous les cas où apparaît un résultat significatif. Une valeur significative est une valeur dont la probabilité d’apparition dans H0 est égale ou inférieure à a .

Pour revenir à notre exemple, supposons que, dans une unité d’aménagement particulière, 30 plantations récemment exploitées, à l’âge de 50 ans aient un rendement moyen de 93 m3/ha, avec un écart-type de 10 m3/ha. Si les statistiques antérieures avaient révélé que, quelques décennies plus tôt, on obtenait dans cette même unité d’aménagement un rendement moyen de 100m3/ha au même âge, la valeur du critère de test serait la suivante:

On verra dans l’Annexe I que la probabilité d’obtenir une telle valeur, si l’hypothèse H0 est vraie, est très inférieure à 0.05 qui est le seuil de signification fixé au préalable. On prendra donc la décision d’accepter l’hypothèse alternative selon laquelle " la productivité des plantations de l’espèce considérée, dans l’unité d’aménagement, a considérablement diminué ".

Les lecteurs qui souhaitent acquérir une compréhension plus complète des thèmes abordés dans cette section peuvent se référer à Dixon et Massey (1951) pour une initiation particulièrement claire, aux deux types d’erreurs, et à Anderson et Bancroft (1952) ou Mood (1950) pour des examens approfondis de la théorie relative aux tests d’hypothèses. Les sections qui suivent décrivent des procédures utilisées pour tester certains types d’hypothèses particuliers.

 

3.2. Test de comparaisons de moyennes

On a souvent besoin de comparer les moyennes de deux groupes d’observations représentant des populations différentes pour savoir si les populations diffèrent par leurs positions. Dans ces situations, l’hypothèse nulle sera ‘il n’y a pas de différence entre les moyennes des deux populations ", soit en symboles, . L’hypothèse alternative est c.à.d., ou .

3.2.1. Echantillons indépendants

Pour vérifier l’hypothèse qui précède, on prélève au hasard des échantillons de chaque population, puis on calcule la moyenne et l’écart-type de chaque échantillon. Notons la moyenne et l’écart-type d’un échantillon de taille n1 de la première population, et la moyenne et l’écart-type d’un échantillon de taille de la seconde population. Dans ce contexte, on peut utiliser le critère de test suivant,

(3.2)

,

est la variance groupée donnée par

et

Le critère de test t suit une loi de Student avec degrés de liberté. Dans ce cas particulier, le degré de liberté est un paramètre associé à la distribution de t qui gouverne la forme de la distribution. Le concept de degré de liberté est mathématiquement assez obscur, mais d’une manière générale, il peut être considéré comme le nombre d’observations indépendantes dans un ensemble de données, ou comme le nombre de comparaisons indépendantes pouvant être faites à propos d’un ensemble de paramètres.

Ce test repose sur des hypothèses précises, à savoir: i) Les variables entrant en jeu sont continues (ii) La population-mère des échantillons prélevés suit une loi de distribution normale (iii) Les échantillons sont prélevés de manière indépendante (iv) Les variances des deux populations dans lesquelles on prélève les échantillons sont homogènes (égales). L’homogénéité de deux variances peut être testée à l’aide du test F décrit dans la Section 3.3.

Pour illustrer ce cas, nous allons étudier une expérience dont le but est d’évaluer l’effet de l’inoculation d’un mycorrhize sur la croissance en hauteur de plantules de Pinus kesiya. Dans l’expérience, 10 plantules, formant le Groupe I, ont été inoculées, et 10 autres (Groupe II) ont été laissées telles quelles. Le Tableau 3.1 donne les hauteurs obtenues dans les deux groupes de plantules.

Tableau 3.1. Hauteur des plantules de Pinus kesiya des deux groupes.

Parcelles

Groupe I

Groupe II

1

23.0

8.5

2

17.4

9.6

3

17.0

7.7

4

20.5

10.1

5

22.7

9.7

6

24.0

13.2

7

22.5

10.3

8

22.7

9.1

9

19.4

10.5

10

18.8

7.4

Les variances de la hauteur des plantules des deux groupes étant égales, l’analyse peut être poursuivie comme suit :

*Etape 1. Calculer les moyennes et la variance groupée des deux groupes de mesures des hauteurs, à l’aide des formules correspondantes indiquées dans l’équation (3.2),

,

= = 6.36

= = 2.7

=

= 4.5372

 

*Etape 2. Calculer la valeur de t à l’aide de l’équation (3.2)

= 11.75

*Etape 3. Comparer la valeur calculée de t avec la valeur de t donnée par la table au niveau de probabilité souhaité pour = 18 degrés de liberté.

Etant donné que nous ne sommes pas sûrs du sens de la variation de la croissance des plantules due au mycorrhize, nous utiliserons un test bilatéral. D’après la table de l’Annexe 2, les valeurs critiques sont –2.10 et +2.10 de chaque côté de la distribution. Comme dans notre exemple, la valeur calculée de t (11.75) est supérieure à 2.10, on en déduit qu’il existe des différences significatives entre les hauteurs moyennes des populations de plantules inoculées et non-inoculées représentées par nos échantillons.

La procédure ci-dessus n’est pas applicable si les variances des deux populations ne sont pas égales. Dans ce cas, on adoptera une méthode légèrement différente :

*Etape 1. Calculer la valeur du critère de test t à l’aide de la formule suivante

(3.3)

*Etape 2. Comparer la valeur de t ainsi obtenue avec la valeur pondérée (t’) donnée par la table, au niveau de probabilité voulu. La valeur tabulaire pondérée de t se calcule comme suit.

(3.4)

, ,

et sont les valeurs tabulaires de t données par la loi de Student avec et degrés de liberté respectivement, au niveau de probabilité voulu.

Prenons par exemple les données figurant dans le Tableau 3.1. L’homogénéité des variances des deux groupes peut être vérifiée à l’aide du Test F décrit dans la Section 3.3. Si les deux variances ne sont pas égales, le critère de test t peut être calculé comme suit,

= 11.76

= 2.26

Comme la valeur calculée de t (11.76) est supérieure à la valeur tabulaire (2.26), on peut conclure que la différence des moyennes est significative. Ici, la valeur de t’ est égale à celles de t1 et t2 puisque n1 et n2 sont égaux. Il n’en est pas toujours ainsi.

3.2.2. Echantillons appariés

Lorsqu’on compare les moyennes de deux groupes d’observations, il arrive que les groupes soient appariés, au lieu d’être indépendants. C’est par exemple le cas, lorsque l’on compare l’état d’un ensemble d’individus avant et après un traitement, ou les propriétés de la partie basse et de la partie haute des tiges de bambous etc... Dans de telles situations, deux ensembles d’observations sont extraits d’un seul ensemble d’unités expérimentales. Les observations peuvent aussi être appariées pour d’autres raisons, notamment lorsqu’elles portent sur des paires de boutures de tiges issues de plantes-mères différentes et sur les membres d’une paire soumise à deux traitements différents, dans le but de comparer l’effet des deux traitements sur les boutures. On notera que les observations obtenues à partir de ces paires peuvent être corrélées. Le test statistique utilisé pour comparer des moyennes d’échantillons appariés est généralement appelé test jumelé t.

Soient (x1, y1), (x2, y2), . . ., (xn, yn), les n observations appariées. Supposons que les observations concernant la variable x proviennent d’une population de moyenne et celles qui concernent la variable y d’une population de moyenne . L’hypothèse à vérifier est . Si on forme les différences di = xi - yi pour i = 1, 2, …, n (on peut considérer qu’elles appartiennent à une population normale de moyenne zéro et de variance connue), on pourra utiliser le cri tère de test suivant :

(3.5)

Le critère de test t donné par l’Equation (3.5) suit une loi de Student t avec degrés de liberté. La valeur de t ainsi obtenue est donc comparable à la valeur tabulaire de t correspondant à degrés de liberté, au niveau de probabilité souhaité.

Prenons par exemple les données du Tableau 3.2, qui ont été obtenues à partir de carottes de sondage (échantillons cylindriques de terrain) prélevées à des niveaux de profondeur différents dans une forêt naturelle. Les données sont des mesures de la teneur en carbone organique, prises à deux niveaux différents de plusieurs fosses d’observation; il s’agit donc d’observations appariées pour chaque fosse. Le test jumelé t peut être utilisé dans ce cas pour comparer la teneur en carbone organique du sol à deux profondeurs différentes. La comparaison statistique se déroule comme indiqué ci-après.

*Etape 1. Calculer la différence entre chaque paire d’observations d’après les données du Tableau 3.2

Tableau 3.2. Teneur en carbone organique mesurée à deux niveaux d’une série de fosses d’observation situées dans une forêt naturelle.

 

Carbone organique (%)

Fosse d’observation

Niveau 1

(x)

Niveau 2

(y)

Différence

(d)

1

1.59

1.21

0.38

2

1.39

0.92

0.47

3

1.64

1.31

0.33

4

1.17

1.52

-0.35

5

1.27

1.62

-0.35

6

1.58

0.91

0.67

7

1.64

1.23

0.41

8

1.53

1.21

0.32

9

1.21

1.58

-0.37

10

1.48

1.18

0.30

*Etape 2. Calculer la différence moyenne et la variance des différences, à l’aide de l’Equation (3.5)

= = = 0.181

= 0.1486

*Etape 3. Calculer la valeur de t en remplaçant les valeurs de et dans l’Equation (3.5).

La valeur calculée de t (1.485) est inférieure à la valeur tabulaire (2.262), pour 9 degrés de liberté, au seuil de signification de 5%. Il n’y a donc pas de différence significative entre la teneur en carbone organique moyenne des deux couches de terrain.

 

3.3. Test de comparaison de variances

On a souvent besoin de vérifier si deux échantillons aléatoires indépendants proviennent de populations de même variance. Supposons que le premier échantillon de observations ait pour variance et que le second échantillon de observations ait pour variance, et que les deux échantillons proviennent de populations distribuées normalement. L’hypothèse nulle à tester est: " les deux échantillons sont indépendants et prélevés au hasard dans des populations normalement distribuées de même variance ", soit en symboles :

sont les variances de deux populations dans lesquelles sont prélevés les deux échantillons. L’hypothèse alternative est la suivante :

Le critère statistique utilisé pour tester l’hypothèse nulle est

(3.6)

est le plus grand carré moyen

Dans l’hypothèse nulle, on peut montrer que le critère statistique suit une distribution de F avec degrés de liberté. La règle de décision est la suivante: si la valeur calculée du critère statistique est inférieure à la valeur critique de la distribution de F, au seuil de signification voulu, on accepte l’hypothèse nulle, à savoir que les deux échantillons sont prélevés dans des populations de même variance. Dans le cas contraire, l’hypothèse nulle est rejetée.

Supposons par exemple que les estimations des variances de deux populations soient et , et soient respectivement basées sur =11 et = 8 observations des deux populations. Pour vérifier si les variances sont égales, on calcule le rapport

et on compare le résultat à la valeur critique de la distribution de F pour 10 et 7 degrés de liberté. On lit dans l’Annexe 3 que cette valeur critique du critère F est 3.14, au seuil de signification de 0,05. La valeur calculée étant inférieure à la valeur critique, les variances sont égales.

 

3.4. Test de proportions

Lorsque les observations consistent à classer les individus dans des catégories particulières, comme ‘malade’ ou ‘en bonne santé’, ‘mort’ ou ‘vivant’ etc…, les données sont généralement résumées en termes de proportions. Il peut alors être intéressant de comparer les proportions de l’incidence d’un caractère dans deux populations. L’hypothèse nulle à formuler dans de telles situations est , alors que l’hypothèse alternative est (ou ou ), où P1 et P2 sont des proportions représentant les deux populations. Pour tester cette hypothèse, on prélève deux échantillons indépendants de grande taille, par exemple n1 et n2, dans les deux populations. On obtient ainsi deux échantillons de proportions respectives p1 et p2 . Le critère statistique utilisé est le suivant :

(3.7)

q1 = 1 - p1, q2 = 1 - p2. Cette statistique suit une loi de distribution normale standard.

Prenons pour exemple une expérience sur la formation des racines de boutures de tiges de Casuarina equisetifolia, consistant à observer l’effet de l’immersion des boutures dans des solutions d’AIB (acide indolylbutyrique), à deux concentrations différentes. Deux lots comprenant chacun trente boutures ont été plongés dans des bains d’AIB, à des concentrations respectives de 50 et 100 ppm. Les observations ont permis de déterminer la proportion de boutures pourvues de racines dans chaque lot de 30, à chaque concentration. A la concentration de 50 ppm, la proportion de boutures à racines était de 0.5, contre 0.37, à la concentration de 100 ppm. La question qui nous intéresse ici est de déterminer si les proportions observées reflètent des différences significatives de l’effet de l’acide, aux deux concentrations.

Conformément à notre notation, p1 = 0.5 et p2 = 0.37. Par suite q1 = 0.5, q2 = 0.63. De plus n1 = n2 = 30. Le critère statistique vaut donc,

La valeur de z obtenue (1.024) est inférieure à la valeur donnée par la table (1.96) au seuil de signification de 5%. Il n’y a donc pas de différence significative entre les proportions de boutures à racines, aux deux concentrations.

3.5. Test de la validité de l’ajustement

Les tests d’hypothèses ont parfois pour but de vérifier si la population dont provient un échantillon suit une loi de distribution de probabilité déterminée. La distribution escomptée peut être basée sur un modèle théorique (loi normale, binomiale ou de Poisson) ou sur un schéma particulier, en raison de facteurs techniques. Il peut par exemple être intéressant de vérifier si une variable comme la hauteur des arbres suit une loi normale de distribution. Un spécialiste de l’amélioration génétique des arbres peut avoir besoin de savoir s’il existe une déviation significative entre les rapports de ségrégation relatifs à un caractère, tels qu’ils sont observés, et ceux de Mendel..Dans de telles situations, on est amené à vérifier la correspondance entre les fréquences observées et théoriques. Ce type de test a reçu le nom de test de la validité de l'ajustement.

Pour appliquer le test de la validité de l’ajustement, on utilise uniquement les fréquences réelles observées, à l’exclusion des pourcentages ou proportions. De plus, il est indispensable que les observations faites sur un même échantillon ne se chevauchent pas et soient indépendantes. Les fréquences attendues dans chaque catégorie doivent de préférence être supérieures à 5. Le nombre total d’observations doit être élevé, en général supérieur à 50.

Dans les tests de la validité de l’ajustement, l’hypothèse nulle est " il n’y a pas de discordance entre la distribution observée et la distribution théorique ", ou " la distribution observée est ajustée à la distribution théorique ". Le critère de test utilisé est le suivant

(3.8)

Oi = fréquence observée dans la ième classe,

Ei = fréquence attendue dans la ième classe.

k = nombre de catégories ou classes.

La statistique c 2 de l’équation (3.8) suit une distribution de c 2 avec k-1 degrés de liberté. Si les fréquences attendues sont dérivées de paramètres estimés dans l’échantillon, les degrés de libertés sont au nombre de (k-p-1) (où p est le nombre de paramètres estimés). Si, par exemple, on veut tester la normalité d’une distribution, une estimation de m et s 2 à partir de l’échantillon sera donnée par et s2. Les degrés de liberté se réduisent donc à (k-2-1).

Les fréquences escomptées peuvent être calculées d’après la fonction de probabilité de la distribution théorique appropriée à la situation, ou obtenues par dérivation, en prenant pour base la théorie scientifique que l’on compte tester, par exemple la loi de Mendel sur l’hérédité. Dans le cas où il n’existe pas de théorie bien définie, on supposera que toutes les classes se retrouvent avec la même fréquence dans la population. Par exemple, l’hypothèse de départ peut être que le nombre d’insectes pris au piège à différents moments d’une journée, ou le nombre de fois où l’on voit un animal dans différents habitats etc… sont égaux et soumettre ces fréquences au test statistique. Dans ces situations, la fréquence attendue est donnée par la formule

(3.9)

Examinons par exemple les données du Tableau 3.3 qui représentent le nombre d’espèces d’insectes capturés, durant des mois différents, dans une zone non perturbée du Sanctuaire naturel de Parambikkulam. Pour vérifier s’il y a des différences significatives entre le nombre d’espèces d’insectes trouvés durant des mois différents, on formulera l’hypothèse nulle comme suit : la diversité, exprimée par le nombre d’espèces d’insectes, est la même tous les mois, dans le sanctuaire, et l’on en dérivera les fréquences attendues pendant les différents mois.

Tableau 3.3. Calcul de c 2 à partir des données sur le nombre d’espèc es d’insectes capturées à Parambikkulam pendant les différents mois.

Mois

O

E

Janvier

67

67

0.00

Février

115

67

34.39

Mars

118

67

38.82

Avril

72

67

0.37

Mai

67

67

0.00

Juin

77

67

1.49

Juillet

75

67

0.96

Août

63

67

0.24

Septembre

42

67

9.33

Octobre

24

67

27.60

Novembre

32

67

18.28

Décembre

52

67

3.36

Total

804

804

134.84

La valeur obtenue pour c 2 est 134.84. Si l’on se reporte à la table de distribution de c 2 (Annexe 4) pour (12-1) = 11 degrés de liberté et a = 0.05, on trouve pour c 2 la valeur critique de 19.7. On accepte donc l’hypothèse nulle et on conclut que le nombre d’espèces d’insectes trouvés est le même tous les mois.

 

3.6. Analyse de variance

L’analyse de variance est essentiellement une technique de répartition de la variation totale des réponses observées lors d’une expérience, entre les différentes sources de variation à laquelle elle peut être attribuée, certaines de ces sources pouvant être déterminées alors que d’autres sont inconnues. Cette technique permet aussi de vérifier si la variation due à une composante particulière quelconque est significative, par rapport à la variation résiduelle qui peut apparaître entre les unités d’observations.

L’analyse de variance se fait selon un modèle sous-jacent qui exprime la réponse comme somme de différents effets. Etudions par exemple l’Equation (3.10).

, i =1, 2, …, t; j = 1, 2, …, ni (3.10)

est la réponse de la j-ème unité individuelle appartenant à la i-ème catégorie ou groupe, m est la moyenne de l’ensemble de la population, a i est l’effet associé à l’appartenance au i-ème groupe et une erreur aléatoire associée à la (ij)-ème observation. Il s’agit d’un modèle d’analyse de la variance à un critère de classification, qui peut être étendu en ajoutant de plus en plus d’effets applicables à une situation particulière. Lorsque plusieurs sources de variations connues interviennent, on a un modèle d’analyse de variance à plusieurs facteurs.

L’analyse repose sur quelques hypothèses de base à propos des observations et des effets, à savoir: i) Les différents effets des composantes sont additifs ii) Les erreurs eij sont distribuées de manière indépendante et égale, avec une moyenne nulle et une variance constante.

Le modèle (3.10) peut aussi s’écrire :

(3.11)

Si l’on ajoute quelques hypothèses, l’analyse de la variance permet aussi de vérifier les hypothèses suivantes :

pour au moins un i et j (3.12)

L’hypothèse supplémentaire requise est "  les erreurs sont distribuées normalement ". Même si de légers écarts sont tolérables, l’interprétation de l’analyse de la variance n’aura de valeur que si ces hypothèses sont réunies.

On notera en outre que les effets pris en compte dans le modèle peuvent être des effets fixes ou des effets aléatoires. Par exemple, les effets de deux niveaux d’irrigation bien définis sont fixes, puisque l’on peut raisonnablement supposer que chaque niveau a un effet déterminé. En revanche, si l’on choisit au hasard un ensemble de provenances dans un plus grand ensemble, les effets imputables aux provenances sont considérés comme aléatoires. Les effets aléatoires peuvent appartenir à une population finie ou infinie. Les effets d’erreurs sont toujours aléatoires et peuvent appartenir à une population finie ou infinie. Un modèle dans lequel tous les effets (autres que l’effet d’erreur qui est toujours considéré comme aléatoire) sont fixes, est un modèle à effets fixes. Un modèle dans lequel apparaissent les deux types d’effets est un modèle mixte et un modèle dans lequel tous les effets sont aléatoires est un modèle à effets aléatoires. Les modèles à effets fixes ont pour principaux objectifs d’estimer les effets fixes, de quantifier la variation due à ces effets dans la réponse, et enfin de trouver la variation entre les effets d’erreur, alors que les modèles à effets aléatoires visent surtout à estimer la variation de chaque catégorie d’effets aléatoires. La méthode à suivre pour obtenir des expressions de la variabilité est en général la même pour tous les modèles, même si les méthodes de test sont différentes.

La technique d’analyse de variance est illustrée ci-après, avec un modèle à un critère de classification ne comprenant que des effets fixes. Des cas plus complexes sont abordés aux chapitre 4 et 6, lors de l’illustration des analyses relatives aux différents plans d’expérience.

 

Previous PageTop Of PageNext Page