Page précédente Table des matières Page suivante


2. THÉORIE DE L'ÉCHANTILLONNAGE


2.1 Introduction
2.2 Echantillonnage au hasard
2.3 Echantillonnage stratifié
2.4 Le sous-échantillonnage ou l'échantillonnage à deux degrés


2.1 Introduction


Exemple 2.1.1
Exemple 2.1.2


Tout système d'échantillonnage est utilisé pour obtenir des estimations de certaines propriétés de la population étudiée et le système d'échantillonnage sera jugé d'après la qualité des estimations obtenues. Des estimations individuelles peuvent, par hasard, être très près ou différer grandement de la valeur vraie et donner une piètre mesure des mérites du système. Un bon système d'échantillonnage, de temps en temps, donnera une estimation éloignée de la valeur vraie tout comme un système ordinaire, médiocre, donnera parfois une estimation très proche de la valeur vraie. Un système est mieux jugé par la distribution de fréquences des nombreuses estimations qui sont ou pourraient être obtenues par des échantillonnages répétés. Un bon système donnera une distribution de fréquences avec une petite variance et une estimation de la moyenne très proche de la valeur vraie. La différence entre l'estimation de la moyenne et la valeur vraie s'appelle le biais (le terme biais s'emploie également pour désigner le processus par lequel cette différence se produit). L'amplitude du biais et celle de la variance d'un système d'échantillonnage sont très largement indépendantes. Un système peut donner des estimations ayant une petite variance c'est-à-dire différant peu entre elles, mais avec une grande déviation, si bien que toutes les estimations diffèrent beaucoup de la valeur vraie. (Un tableau de mesures avec des chiffres presque illisibles sur l'échelle introduirait quelque variance supplémentaire, un tableau avec l'échelle déplacée d'un côté introduirait un biais.)

Exemple 2.1.1

Des prises de poissons d'espèces mélangées sont examinées par deux observateurs pour trouver le pourcentage d'une seule espèce de Leiognathus. L'observateur A travaille rapidement mais sans soin, omettant plusieurs poissons de l'espèce en question. L'observateur B travaille beaucoup plus lentement mais plus soigneusement. Leurs estimations de pourcentage de Leiognathus splendens d'une capture donnée, sur une série d'échantillons, ont donné

A.

4

4

3

5

4




B.

9

7

11

4

8


3

5

4

6

4





4

10

8

9

12


6

3

4

3

5





8

3

6

10

15


4

5

4

4

6





11

12

7

13

11


5

3

5

4

5





10

5

8

9

12

Le calcul des moyennes et variances de ces deux distributions montre

a) Que les estimations obtenus? par A sont plus précises (ont moins de variance) qui celles de B (0,89:9,03);

b) Que si, par d'autres données, on sait que le pourcentage vrai était 9,1, alors A a un biais fortement négatif;

c) Si l'on sait que A a omis la moitié des poissons, une estimation relativement précise et sans biais peut s'obtenir en doublant les estimations trouvés par A (moyenne 864, biais [c'est-à-dire différence entre la moyenne estimée et la moyenne vraie] -0,46, variance 3,6).

Les biais peuvent être causés par une mauvaise méthode d'analyse, mais plus souvent ils proviennent d'un choix insuffisant d'échantillons ou de la méthode qui a servi à effectuer les mensurations ou les comptages ou à obtenir les échantillons. Par exemple, si les poissons sont triés quand ils sont mis à quai et les échantillons pris principalement parmi les plus gros poissons, la taille moyenne sera surestimée - biais positif dans la taille moyenne; si les filets à plancton sont faits de nappes à mailles trop grandes, le nombre des petites diatomées sera sous-estime - biais négatif dans la moyenne des nombres des petites diatomées, mais biais positif dans la moyenne de la taille des diatomées. Le biais, quelle que soit sa forma, se produit souvent, particulièrement quand on essaie d'obtenir des échantillons typiques de la vraie condition en mer, qu'il s'agisse de diatomées avec un filet à plancton ou de poissons avec un chalut.

Si les dimensions des échantillons augmentent ou si les données de deux ou plusieurs échantillons se combinent, le biais restera inchangé, mais la variance sera réduite, approximativement en proportion inverse de la taille ou du nombre des échantillons pris. Cette dernière sera en rapport très étroit avec le montant du travail ou de la dépense engagée dans le programme d'échantillonnage. On peut, théoriquement du moins, obtenir n'importe quel degré de précision *, c'est-à-dire une variance aussi petite que l'on veut, en prenant suffisamment d'échantillons. Le but d'un bon échantillonnage n'est pas tant d'obtenir un niveau donné de précision (petite variance) mais de le faire avec la moindre dépense. Le biais cependant ne peut être réduit simplement en augmentant le nombre des échantillons, de même que sa présence n'est pas toujours détectable par des analyses subséquentes des données (cf. exemple 2.1.1 où il n'y a rien dans les données elles-mêmes pour dire lequel des échantillons A ou B est faussé). Normalement, le biais peut être seulement détecté, et par conséquent éliminé, par un examen soigneux de tout le procédé d'échantillonnage depuis le début jusqu'à la fin. Dans la plupart des cas, on doit s'assurer que toutes les causes probables de biais ont été éliminées. Il y a cependant des cas où le biais se mesure facilement et il est plus simple de le laisser se produire et de l'enlever dans une analyse ultérieure (par exemple les filets maillants sont très sélectifs de la taille des poissons qu'ils prennent et par conséquent donnent un échantillonnage biaisé, disons, de la longueur moyenne. Cependant, cette sélection peut être mesurée et corrigée en dernière analyse). Dans ce cas comme dans tous les autres, les chances de biais qui peuvent se produire doivent être examinées soigneusement avant de commencer et, si on accepte la déviation, son amplitude doit être mesurée soigneusement, indépendamment du procédé d'échantillonnage.

* On fera ici une distinction utile entre précision et exactitude. Ceci correspond étroitement à la distinction entre variance et déviation (ou plutôt leurs réciproques). Un nombre précis aura peu de variance et sera donné avec beaucoup de chiffres significatif, nuis peut s'éloigner assez largement de la valeur donnée. Si un poisson a véritablement 17,638 centimètres de long, des mesures précises de sa longueur pourraient être 16,64- ou 18,32 centimètres mais cette dernière est grossièrement inexacte. Exactes mais moins précises seraient les mesures 17,6 ou 18 centimètres.

Exemple 2.1.2

Dans le cas de l'exemple 2.1.2, on obtient de plus grands échantillons en combinant cinq des échantillons originaux. En prenant la moyenne des colonnes comme estimation pour les plus grands échantillons, on voit:

a) Que la variance des deux séries a été diminuée (celle de A de 0,89 à 0,52, celle de B de 9,03 à 1,29);

b) Que l'amplitude du biais des échantillons de A reste inchangée (la moyenne est inchangée).

Les considérations ci-dessus (biais éliminé, ou tout au moins connu et mesuré, et variance au minimum pour un ensemble donné d'échantillons) vont déterminer la méthode d'échantillonnage, mais le total de l'échantillonnage sera déterminé avec la précision requise. Habituellement, il n'est pas toujours possible de fixer exactement le degré de précision nécessaire, mais deux limites sont généralement données. A la limite inférieure, la variance est si grande que l'information donnée par l'échantillon n'a pas de valeur pratique - les dimensions de l'échantillon doivent être augmentées ou le procédé d'échantillonnage abandonné. Les estimations obtenues d'une seule étude d'échantillonnage sont habituellement combinées avec d'autres données, quelques-unes provenant peut-être d'autres systèmes d'échantillonnage dont la plupart auront une plus ou moins grande variance. La variance de la réponse finale dépendra de la variance de toutes les parties constitutives des données mais surtout de la variance des parties les moins précises - la force d'une chaîne étant celle de son plus faible maillon. Par exemple, la prise totale d'une flottille de pêche peut être estimée d'après les données de la capture moyenne par durée de mise à quai et le nombre total de mises à quai. Si le nombre des mises à quai n'est connu qu'à plus ou moins 10 pour cent, la quantité totale débarquée ne sera connue au mieux qu'à plus ou moins 10 pour cent près quelle que soit la qualité des renseignements obtenus sur la prise moyenne par mise à quai. Une fois qu'un certain degré de précision a été atteint dans une seule étude d'échantillonnage, des perfectionnements ultérieurs n'améliorent pas le résultat final et l'effort (temps, main-d'œuvre) serait mieux employé à améliorer la précision d'autres données.

2.2 Echantillonnage au hasard


2.2.1 Nombres au hasard


Le concept de base dans tout échantillonnage est l'échantillon au hasard. Un échantillon d'objets d'une population est dit au hasard si tous les membres de la population ont une chance égale d'apparaître dans l'échantillon. Il est très important de se souvenir que ceci s'applique à tous les membres de la population, aux membres types aussi bien qu'à ceux qui sont exceptionnels. Par exemple, le merlan débarqué à Lowestoft par n'importe quel bateau aura habituellement (ce qui sera toujours admis ici) une composition de longueur régulièrement uniforme, d'une longueur habituelle de 28 à 30 centimètres, mais occasionnellement, mettons une fois sur 30, atteindra 35 centimètres. Un seul échantillon de merlan d'un bateau, s'il est pris au hasard, doit alors occasionnellement (une fois sur 30 en moyenne) donner une longueur égale ou supérieure à 35 centimètres, mais aura habituellement environ 28 ou 30 centimètres. Alors, si un biologiste des pêches, se référant à un seul échantillon, obtient une valeur de 35 centimètres, cette déviation de la moyenne de 29 centimètres n'indique pas nécessairement qu'il n'a pas été pris au hasard parce que cette malchance n'arrivera que toutes les 30 fois. La réponse est de prendre plus d'échantillons; tous les groupes de 3 spécimens n'auront des longueurs de plus de 35 centimètres qu'une fois seulement sur 27000.

2.2.1 Nombres au hasard


Exemple 2.2.1.1
Exemple 2.2.1.2


Une méthode utile et largement applicable pour obtenir un véritable échantillonnage au hasard est l'utilisation de nombres au hasard. Les individus d'une population dont on doit prendre un échantillon sont des nombres désignés et ceux-ci sont choisis dans une table de nombres au hasard. Par exemple, si un échantillonnage de 5 doit être pris dans une population de 100 et si les 5 nombres au hasard sont 3, 47, 43, 73 et 86, les individus correspondant à ces nombres feront l'objet de l'échantillonnage. Si le nombre d'individus de la population n'est pas exactement 100 (ou 1000, etc.), quelques-uns des nombres au hasard qui se présenteront ne correspondront pas aux nombres de la population et devront être écartés. Cette perte peut être réduite si deux ou plusieurs nombres sont attribués à chaque individu, pourvu que chaque individu ait la même chance, c'est-à-dire une égale chance de devenir échantillon. Supposons par exemple que 5 unités doivent être échantillonnées sur une population de 24; dans ce cas, 4 nombres seront attribués à chaque individu, le premier ayant par exemple les nombres 01 à 04, etc., le 24e ayant 93-96. Si bien que seuls les nombres 97-100 ne seront pas utilisés. Les individus à échantillonner correspondant à la suite précédente de cinq nombres au hasard seraient alors les nombres 1, 12, 11, 16 et 22 (si l'un des nombres au hasard est 97 ou plus, on l'écarté et on en choisit un autre). Au lieu de choisir individuellement toutes les unités de l'échantillon dans la table des nombres au hasard, les unités peuvent être prises à intervalles réguliers, par exemple chaque 5e ou 100e unité, la première seulement étant choisie avec la table des nombres au hasard. Dans le premier exemple, 1/20 de la population doit être échantillonné. Si bien que l'intervalle d'échantillonnage serait de 20. Le premier nombre au hasard est 3, aussi l'échantillon complet comprendrait les unités numérotées 3, 23, 43, 63, 83. Un tel système peut être dangereux quand il y a une périodicité naturelle dans la population correspondant à l'intervalle d'échantillonnage. Par exemple, on ne devrait pas échantillonner à un quai de débarquement pour obtenir la prise totale tous les 7 jours ou tous les 15 jours quand il y a de grandes différences systématiques entre les mises à quai des différents jours de la semaine.

 

Exemple 2.2.1.1

Des poissons sont débarqués à un certain emplacement pendant l'année. La mise à quai totale doit être calculée à l'aide d'échantillons pris sur 30 jours échelonnés pendant l'année. Déterminons les jours où l'échantillonnage doit avoir lieu en utilisant les nombres au hasard:

à) Directement de suites de nombres au hasard de 000 à 999 en numérotant les jours de 1 à 365;

b) En donnant 2 nombres à chaque jour, 1 et 2 à 729 et 730;

c) En donnant 27 nombres à chaque jour 1-27 jusqu'à 9829-9855, utilisant les nombres au hasard de 0000 à 9999;

d) En échantillonnant tous les 12 jours, le jour de départ étant choisi au hasard dans les jours 1-12 (quelques échantillons peuvent avoir 31 jours).

Si on n'utilise pas les nombres au hasard ou un procédé similaire de prise au hasard, il est probable que tous les individus de la population n'auront pas des chances égales de devenir échantillon. S'il n'y a aucune relation entre la quantité à mesurer et la probabilité d'être pris pour échantillon, le résultat peut être biaisé, peut-être grandement. Par exemple, à un marché important de poissons, il est souvent facile, quand on échantillonne les mises à quai d'un bateau déterminé, de travailler sur les poissons débarqués en premier. Ceux-ci pourront être ceux qui ont été capturés en dernier lieu et alors ils seront les plus frais. Un tel échantillonnage serait faussé si on devait estimer la fraîcheur du poisson débarqué. Le poisson pris en dernier ne différerait probablement pas des autres poissons par la taille, aussi, échantillonner le poisson débarqué en premier donnerait des résultats non biaises en ce qui concerne la taille moyenne. L'absence de biais ne doit pas être affirmée trop vite; il faut examiner attentivement la possibilité d'un biais. Dans l'exemple ci-dessus, des biais pourraient se produire si les bateaux avaient péché près de leur port d'attache à la fin de leur voyage et si la taille des poissons de ces parages différait de la moyenne. Celles-ci et d'autres sources d'erreurs possibles peuvent seulement être détectées et éliminées si l'on a complètement connu et compris l'ensemble de l'opération de pêche, comment les poissons sont pris, comment ils sont manipulés à bord et les dispositions prises au marché de poissons.

La précision des estimations obtenues par un véritable échantillonnage au hasard est facilement déterminée. Si une population est échantillonnée en vue d'une certaine caractéristique (par exemple nombre de vertèbres) qui dans la population a comme moyenne M, comme variance S2 et un échantillon de n individus indépendants et pris au hasard dont les valeurs respectives sont x1... xn, l'estimation de la valeur moyenne de la population est

(2.1)

et la moyenne de (l'estimation n'est pas déviée) et la variance de (ou en abréviation var ) = 1/n S2, en admettant que N, nombre total de la population, est grand comparé à n.

Autrement, la formule de la variance devient

 

Exemple 2.2.1.2

a) En admettant que la moyenne et la variance des données de l'exemple 1.2.1 sont proches des valeurs de la population, calculons la variance de la longueur moyenne estimée avec des échantillons de 5, 20 et 100 poissons;

b) Utilisant des nombres au hasard, ou autrement, prenons 20 échantillons au hasard de 5 poissons parmi les 449 poissons de l'exemple 1.2.1. Calculons la longueur moyenne de chacun de ces échantillons; calculons la variance de ces 20 grandeurs et comparons-la avec celle trouvée par le calcul dans à). (Remarquons que la variance calculée sur une suite de nombres aussi petits que 20 est sujette à quelque variabilité);

c) Si l'on demande d'estimer la longueur moyenne de la morue de la mer du Nord à plus ou moins 5 centimètres près, quelle quantité doit-on prendre pour l'échantillon au hasard? (Ceci exige que le double de l'écart type de la longueur moyenne estimée soit égal à 5.)

2.3 Echantillonnage stratifié


Exemple 2.3.1
Exemple 2.3.2
Exemple 2.3.3


Quand l'échantillonnage porte sur une population hétérogène, la précision atteinte peut être augmentée - quelquefois de beaucoup - et le risque de biais réduit en divisant la population en sections, chacune relativement homogène et en échantillonnant chaque section (ou strate) séparément. Un échantillon est alors prélevé dans chaque strate prise isolément, et on obtient les estimations pour chaque strate. Celles-ci peuvent alors être combinées pour donner l'estimation de l'ensemble de la population. La variance de cette estimation pourra aussi s'obtenir en combinant les variances des estimations dans les différentes strates. Comme les variances de chaque strate seront petites - les strates étant relativement homogènes, si bien que la variance dans une strate est moindre et parfois beaucoup moindre que la variance de la population dans son ensemble - la variance de l'estimation finale combinée sera aussi petite.

En termes mathématiques, supposons que la population se compose de N individus, Ni dans la, ie strate, on a N = S Ni. Un échantillon de Ni est pris dans la ie strate comprenant des valeurs de la quantité à calculer (longueur du poisson, poids de la capture, etc.) également à yij, j=1... n1, la valeur moyenne yi, estimée dans la strate est

(2.2)

et on aura une estimation non biaisée dé la valeur moyenne de l'ensemble de la population par la moyenne pondérée des moyennes des strates individuelles, le facteur de pondération étant le total des nombres de chaque strate, c'est-à-dire

Si la variance dans la ie strate est S2i


et

(2.3)

à condition que ni soit petit par rapport à Ni; sinon les variances deviennent

Cette variance peut se comparer avec la variance de l'estimation obtenue par un échantillonnage au hasard dans l'ensemble de la population qui est

ou

si n n'est pas petit par rapport à N, S2 étant la variance de la population dans son ensemble.

Exemple 2.3.1

La pêche d'un chalutier commercial débarquant des églefins à Aberdeen a été classée en quatre catégories de tailles formant quatre strates. Des échantillons d'églefins de chaque strate ont été mesurés et les données résumées comme suit (Pope, 1956):

Catégorie

Ni

ni

S yij

S yij2

Petite

2432

152

5284

185532

Moyenne-petite

1656

92

3817

158953

Moyenne

2268

63

3033

146357

Grande

665

35

2027

118169

TOTAL

7021

342

14161

609011

y = longueur du poisson en centimètres. De ces chiffres, utilisant pour notre estimation de «S2i la quantité habituelle nous avons:

Catégorie

Si2

Si2/ni

Ni2 Si2/ni

Petite

34,763

84544

12,21

0,0803

474900

Moyenne-petite

41,489

68706

6,47

0,0703

192800

Moyenne

48,143

109188

5,48

0,0870

447500

Grande

57,914

38513

22,85

0,6529

288700



300951



1403900

et écart type

Les limites de confiance à 95 pour cent sur la longueur moyenne vraie de la pêche donnent alors 42,9 ± 2 × 0,17 c'est-à-dire 42,6 - 43,2 centimètres.

Les données peuvent aussi servir pour fournir une mesure brute de la variance de l'estimation obtenue à partir d'un échantillon au hasard de 342 individus pris dans l'ensemble de la pêche. Pour cela, nous prendrons comme estimation de S2, la variance de la population dans son ensemble

Nous avons alors s2 == 66,4 (à comparer avec la plus grande variance à l'intérieur des strates de 22,85)

L'estimation de s2 utilisée n'est naturellement pas entièrement correcte parce que l'échantillon utilisé est loin d'être un véritable échantillon au hasard, la représentation du poisson moyen étant insuffisante. Cependant, c'est suffisamment exact pour indiquer la forte réduction de la variance quand on utilise l'échantillonnage stratifié - dans cet exemple, une réduction d'environ 1/7 de la variance non stratifiée correspond à une augmentation de sept fois des dimensions de l'échantillon.

On accroîtra le bénéfice de l'échantillonnage stratifié en échantillonnant les différentes strates dans la proportion la meilleure. Les strates contenant beaucoup d'individus, ou bien celles qui varient beaucoup, exigent plus d'échantillonnages que celles qui sont uniformes ou petites. La variance sera minimum pour une grandeur donnée d'un échantillon total,

ni ¥ Ni × Si

ou

c'est-à-dire que la proportion échantillonnée dans une strate est proportionnelle à la variance dans cette strate. Si n, n'est pas petit par rapport à Ni cette formule n'est pas très définie, mais sera assez rapprochée pour fournir un bon guide pour la répartition la meilleure.

Exemple 2.3.2

Dans l'exemple 2.3.1 déterminons la meilleure répartition pour chaque strate du nombre total de poissons échantillonnés (342), et en utilisant les valeurs de S2, calculons la variance de la longueur moyenne estimée pour cette répartition d'échantillons.

Exemple 2.3.3

Le long d'une certaine côte, les 100 points de débarquement du poisson peuvent être classés sommairement en trois catégories d'après le poids du poisson débarqué. Pendant une semaine, les poids débarqués ont été:

Points de débarquement:

Importants

45

59

87

41

71

25

9

69

10

7

Moyens

17

13

19

26

1

8

27

11

12

26


5

8

10

16

16

4

16

16

13

29


14

25

29

27

20

25

2

7

3

12

Peu importants

2

6

7

0

1

2

1

5

4

7


8

9

3

2

5

4

2

0

2

8


5

3

8

9

8

9

1

6

5

3


3

4

7

5

5

3

2

4

6

1


6

2

5

1

0

3

8

0

4

3


3

5

5

0

7

0

9

7

9

0

En calculant la variance dans chaque catégorie et dans l'ensemble de la population, déterminons la meilleure méthode possible d'estimation de la prise totale hebdomadaire le long de toute la côte en supposant qu'on ne peut déterminer les captures que sur 20 emplacements seulement (un sur cinq, par exemple en visitant les lieux de débarquement). Quelle est la variance de cette estimation et comment peut-on la comparer a) avec celle d'un simple échantillon au hasard de toute la population; b) en utilisant un échantillonnage stratifié, en prenant un échantillon de 1/5 de chaque catégorie.

2.4 Le sous-échantillonnage ou l'échantillonnage à deux degrés


Exemple 2.4.1
Exemple 2.4.2
Exemple 2.4.3
Exemple 2.4.4


Quand la population à échantillonner est trop étendue ou complexe, les problèmes pratiques de prise d'un simple échantillon au hasard ne sont pas simples et le temps utilisé même pour un petit échantillon peut être important. Le temps nécessaire pour obtenir un échantillon d'une mesure déterminée peut être sensiblement réduit en effectuant l'échantillonnage en deux degrés. Premièrement, la population totale peut être divisée en un nombre d'unités primaires distinctes ou sous-populations dont on prend un échantillon. Dans chacune de ces sous-populations échantillonnées, on prend un second échantillon ou sous-échantillon des individus. Par exemple, pour estimer la capture totale sur une certaine côte, l'unité de base peut être prise sur la mise à quai d'un bateau déterminé. Prendre des mises à quai au hasard le long de la côte représenterait des voyages trop longs. Il faut prendre des mises à quai à un lieu déterminé, un jour déterminé, avec une unité primaire convenable. La méthode consisterait alors à sélectionner (par exemple par des nombres au hasard) certains points de débarquement déterminés à certains jours et, à ces endroits sélectionnés, opérer un certain échantillonnage des bateaux qui y débarquent.

Le sous-échantillonnage peut naturellement se faire à plus de deux degrés. Si, dans l'exemple ci-dessus, un examen détaillé de taille ou de maturité par exemple était nécessaire, cela pourrait se faire sur un échantillonnage d'une caisse de poissons (ou même un sous-échantillonnage de cette caisse) débarquée par un certain bateau au lieu de débarquement, ce qui donne trois (ou quatre) degrés d'échantillonnage.

L'inconvénient du sous-échantillonnage est naturellement le fait que les individus dans la même unité primaire doivent être probablement beaucoup plus semblables entre eux que les individus de la population dans son ensemble. Ainsi, après avoir examiné un certain spécimen dans l'unité, par exemple en pesant la prise d'un certain bateau mise à quai à un certain point de débarquement, l'examen d'autres spécimens de cette unité nous en apprendra moins sur les caractéristiques de l'ensemble de la population (par exemple, la pêche moyenne par bateau à tous les lieux de débarquement) que l'examen de spécimens d'autres unités primaires. Cela doit être mis en balance avec le nombre croissant d'échantillons qui peuvent être pris en un temps donné par l'échantillonnage à deux degrés. En général, si les spécimens dans une unité primaire sont très variables, il vaut mieux prendre beaucoup d'échantillons à l'intérieur d'une unité, avec relativement peu d'unités primaires. Au contraire, s'il y a peu de variation dans une même unité et s'il y a beaucoup de différences entre les unités, il est préférable d'échantillonner un plus grand nombre d'unités primaires, avec un plus petit nombre de spécimens dans chaque unité.

La méthode peut être traduite en termes mathématiques; supposons, pour la simplicité, que la population puisse être partagée en K unités primaires, chacune d'elles de N individus et que k unités primaires soient échantillonnées avec un sous-échantillon de n individus pris dans chacune.

Alors, si M est la moyenne de la population et M, la moyenne pour la ie unité primaire, nous avons comme estimation de la moyenne de n'importe quelle unité primaire échantillonnée

xij, est la valeur du je individu dans la ie unité et l'estimation de la moyenne de la population est:

(2.4)

Dès lors, la variance de w, voisine de Mi est 1/n × S2w,S2w est la variance des individus de la ie unité primaire voisine de la moyenne de l'unité. La variance de la moyenne de la population estimée sera composée de deux parties: la variance des moyennes de l'unité estimée voisine des moyennes de la véritable unité et la variance de cette dernière voisine de la moyenne de la population, c'est-à-dire

S2b est la variance des moyennes de l'unité voisine de la moyenne de la population. Une estimation sans déviation de la variance de m est:

Exemple 2.4.1

(d'après Pope, 1956)

Un échantillon au hasard de harengs a été pris sur le nombre total des mises à quai d'une semaine et 50 harengs de chaque mise à quai choisie ont été pris au hasard et mesurés. Les données suivantes furent obtenues:

Bateaux

1

2

3

4

5

Sommes

1244,3

1324,2

1335,4

1299,7

1270,5

Sommes des carrés =

31020,97

35127,08

35730,30

33900,99

32558,55

Estimons la longueur moyenne des harengs dans les mises à quai de la semaine et son erreur type. D'abord calculons la moyenne pour chaque bateau égale à 24,9, 26,5, 267, 26,0 et 25,4. Par conséquent, les estimations demandées sont données par

Les variances, dans et entre les unités primaires, peuvent aussi être calculées séparément. Dans toute unité primaire nous avons une estimation de S2, telle que

Ces estimations provenant des unités primaires séparées peuvent se combiner pour donner comme meilleure estimation

Des équations (2.5) et (2.6), la variance entre les unités peut se déduire de l'équation

(2.8)

et de la valeur de S2w, donnée par l'équation (2.7).

Exemple 2.4.2

Calculer la variance, à l'intérieur d'un bateau et entre les bateaux, des longueurs des harengs à partir des données de l'exemple 2.4.1. Nous avons comme estimations de la variance à l'intérieur d'un bateau

5 X 49 X S2w (31020,97 - 1/50 1244,32)+...+...

. .245 S2w = 378,62

S2w = 1,545

Nous avons aussi

S2B + 1/50 S2w = (24,92 +...)2

S2B = 0,56 - 0,03 = 0,53

Dans les calculs des exemples 2.4.1 et 2.4.2, on peut voir que la majeure contribution à S2m, variance de la longueur moyenne estimée de tous les poissons débarqués, vient de S2B, variance entre les bateaux. De plus, d'après l'équation (2.5), cet effet sur la variance de la moyenne peut être réduit en augmentant k, nombre d'unités primaires échantillonnées, mais point en augmentant n, nombre d'individus échantillonnés dans chaque unité primaire. Le temps passé à échantillonner les mises à quai de harengs serait probablement plus efficacement employé si le nombre de bateaux échantillonnés était augmenté, à condition de réduire le nombre de poissons mesurés, par exemple 6 échantillons de 30 = 180 poissons au lieu de 5 de 50 = 250 poissons. La meilleure répartition du temps sera déterminée par le temps pris dans les différents degrés d'échantillonnage, aussi bien que dans les variances intéressées. Le temps total passé peut en première approximation se partager en trois parties:

a) Le temps d'organisation générale; c'est le temps passé en préparation comprenant le temps du voyage du lieu de travail au lieu d'échantillonnage. Ce temps est plus ou moins fixe et sans rapport avec l'importance de l'échantillonnage;

b) Le temps passé entre les unités primaires - dans l'exemple, le temps passé à se déplacer d'un bateau à l'autre - qui sera proportionnel au nombre d'unités primaires;

c) Le temps passé à l'intérieur des unités primaires - temps passé à examiner les individus dans chaque unité primaire. Le temps total employé sera alors donné par

t= to+k tb+nk tw

(2.9)

to = temps d'organisation générale
tb, = temps pour aller d'une unité primaire à une autre
tw == temps passé à l'examen d'un individu.

La meilleure répartition (c'est-à-dire celle qui donne la variance minimum) du temps d'échantillonnage en fonction du nombre d'individus échantillonnés dans chaque unité primaire est donnée par la formule

(2.10)

Exemple 2.4.3

En utilisant les données des exemples précédents et en supposant que 20 poissons peuvent être mesurés en une minute, et que le temps pris pour aller d'un bateau au suivant est de 5 minutes, démontrons que la plus petite variance dans les longueurs moyennes estimées pour un total donné d'échantillonnages est obtenue en utilisant des échantillons secondaires d'environ 17 poissons.

Jusqu'ici on a supposé que les unités primaires sont toutes de la même taille. Lorsqu'elles sont de tailles différentes (ce qui arrive habituellement) il est important que les pondérations exactes s'appliquent à chaque unité. Alors, l'équation (2.4) devient

(2.11)

Ni = nombre d'individus de la Ie unité primaire


N = S Ni = nombre total dans toutes les unités primaires échantillonnées

ce qui devient

(2.12)

ni est le nombre d'individus échantillonnés dans la ie unité primaire, qui ne sera pas nécessairement le même pour toutes les unités primaires. Si ni, est pris de telle façon que le taux d'échantillonnage ni/Ni, soit le même pour toutes les unités égales, disons à p, alors (2.12) se réduit à

(2.13)

n est le nombre total d'individus échantillonnés; ceci, naturellement, est d'une présentation plus facile pour le calcul. La formule de la variance (équation 2.5) doit aussi être transformée et devient

La formule (équation 2.10) donnant le meilleur nombre à échantillonner dans chaque unité ne sera également plus appliquée telle quelle. L'équation pourrait être modifiée pour donner une formule déterminant avec précision la meilleure répartition à chaque unité primaire échantillonnée. Cependant, cette formule sera plutôt compliquée et nécessitera quelques informations supplémentaires sur les variances à l'intérieur de chaque unité primaire (qui peuvent ne pas être les mêmes pour chaque unité). La précision supplémentaire apportée ne mérite pas l'effort qu'elle nécessite et une méthode plus raisonnable est d'utiliser l'équation (2.10) modifiée empiriquement par des augmentations du nombre d'échantillons dans les unités primaires plus grandes ou plus variables.

Quand le but de l'échantillonnage est de mesurer une quelconque quantité totale telle que le poids total débarqué d'une certaine espèce de poissons plutôt qu'une quelconque valeur moyenne, telle que la longueur moyenne du poisson, l'analyse des résultats donnés par les équations (2.11)-(2.13) doit être modifiée; le total de la Ie unité échantillonnée sera

est le facteur d'extension ou de pondération de la ie unité primaire et égal à l'inverse de la proportion échantillonnée. Le total de la population entière est donné par:

N = le nombre total d'individus de la population. Si N est inconnu, comme il peut bien arriver, le facteur d'extension propre N/Ni ne peut pas servir, et on doit utiliser l'approximation K/kK est le nombre total d'unités primaires et k celui des unités échantillonnées. (Si le nombre d'individus de chaque unité primaire est le même, les deux facteurs d'extension seront naturellement égaux). L'emploi successif des deux facteurs d'extension - des individus échantillonnés à l'ensemble de l'unité primaire et de l'unité primaire échantillonnée à l'ensemble de la population - est très important. De sérieux biais peuvent se produire en utilisant des facteurs de pondération inexacts s'il y a de grandes différences de constitution entre les unités primaires, spécialement si celles-ci sont liées au nombre d'individus de l'unité primaire. Supposons par exemple que nous voulions estimer la quantité totale d'une certaine espèce de poissons vivant habituellement près de la côte, mise à quai à un certain endroit. Nous pouvons prendre comme unité primaire la capture d'un seul bateau et échantillonner dans les bateaux choisis une caisse de poissons. Il est probable que de plus grands bateaux travailleront plus au large et auront des prises plus abondantes, et auront dans leur prise une proportion plus petite de poissons de l'espèce côtière. Si les échantillons de ces bateaux avaient le même facteur de pondération que ceux des bateaux côtiers, la proportion des espèces côtières serait sérieusement surestimée.

Exemple 2.4.4

A un certain port, 30 bateaux ont débarqué du poisson. Une caisse de poisson a été échantillonnée sur 10 bateaux et le poids de deux espèces de poisson déterminé avec les résultats suivants:

Numéro des bateaux

1

2

3

4

5

6

7

8

9

10

Nombre de caisses débarquées

28

10

16

20

18

12

10

5

15

25

Poids de l'espèce A dans une caisse (kg)

10

1

2

2

7

8

3

2

9

12

Poids de l'espèce B dans une caisse (kg)

1

10

2

2

2

7

3

9

8

2

Calculons le poids total de chaque espèce débarquée: a) d'après les renseignements ci-dessus, b) en utilisant le renseignement complémentaire: le total des caisses débarquées par tous les bateaux était de 450 caisses. Comparons le rapport des deux espèces dans le total débarqué avec le rapport dans les 10 caisses échantillonnées (une caisse pesant 50 kg).


Page précédente Début de page Page suivante