Page précédente Table des matières Page suivante


1. INTRODUCTION ET GÉNÉRALITÉS EN MATIÈRE DE STATISTIQUES


1.1.Introduction
1.2 Eléments de statistique


1.1.Introduction

La plupart des quantités étudiées en matière de recherches sur les pêches ne peuvent être observées ou mesurées sur l'ensemble de la population car il est pratiquement impossible de mesurer tout le poisson pris, encore moins tout le poisson de la mer. On n'examine qu'une partie, ou échantillon, de l'ensemble sur les points à étudier tels que pourcentage de poisson adulte ou taille moyenne. En supposant que cet échantillon est représentatif en quelque manière de l'ensemble, on peut estimer la valeur vraie de toute la population. Si le système d'échantillonnage utilisé est bon, il est dès lors probable que le résultat sera très proche de la réalité. Le but du présent manuel est d'esquisser les méthodes de mise en œuvre de systèmes valables d'échantillonnage pour les quantités d'un intérêt important en matière de recherches biologiques des pêches.

1.2 Eléments de statistique


Exemple 1.2.1
Exemple 1.2.2
Exemple 1.2.3
Exemple 1.2.4
Exemple 1.2.5
Exemple 1.2.6


Au préalable, il est nécessaire de décrire quelques concepts statistiques de base utilisés dans la théorie de l'échantillonnage. Les statistiques traitent des propriétés numériques des séries (ou populations) de sujets étudiés. De telles populations peuvent être de vraies populations biologiques telles que Rastrelliger dans l'océan Indien, ou telle autre série de mesures définies, par exemple une série de températures, ou même les estimations possibles d'une certaine quantité (par exemple longueur moyenne des poissons), obtenues à partir d'un système d'échantillonnage déterminé. Autrement dit, une quantité obtenue à partir d'une certaine population (longueur des poissons) peut faire partie d'une autre population (estimations de la longueur moyenne). Chaque membre de la population a une valeur numérique, la variate, qui peut prendre une suite de valeurs possibles (par exemple longueur des poissons). Une telle population peut être représentée par sa distribution de fréquence, c'est-à-dire la fréquence avec laquelle chacune des différentes valeurs se retrouve. Une distribution peut être discontinue, quand seulement certaines valeurs sont possibles - par exemple le coup de dé ne peut donner que les valeurs 1, 2, 3, 4, 5, 6 - ou continue, quand toutes les valeurs, au moins dans une série, peuvent se produire, par exemple les longueurs des poissons. Une distribution est souvent représentée graphiquement, soit par un histogramme, soit par un polygone de fréquence mais dans ce cas les valeurs d'une variable continue seront habituellement réparties par groupes à cet effet. Alors, pour un polygone de fréquence, la hauteur de chaque point donnera la fréquence, c'est-à-dire le nombre d'individus présentant une certaine valeur ou se produisant à intervalles déterminés (laquelle sera normalement relevée au milieu de l'intervalle): pour un histogramme, l'aire de chaque section donne la fréquence totale de cet intervalle, ce qui permettra d'utiliser différentes classes d'intervalles, par exemple des groupes d'un centimètre pour les petits poissons et de cinq centimètres pour des poissons plus grands.

Exemple 1.2.1

La distribution de fréquence suivante de la longueur de la morue de la mer du Nord a été tirée des données de Russell. Relevons les données sur un polygone de fréquence et sur un histogramme, d'abord avec les intervalles donnés (1 cm), puis en utilisant les répartitions par groupes, par exemple de 2, 3, 5, 10 et 20 centimètres.

Effectuons également le relevé sur un histogramme en utilisant des répartitions par groupes moins précises (par exemple 10 cm au lieu de 2 cm) pour des poissons dépassant 60 centimètres.

Comparons les résultats en utilisant différentes bases pour les répartitions par groupes, par exemple pour les groupes de 5 centimètres, 25-29, 30-34, etc., ou 27-31, 32-36, etc.

Les relevés seront effectués sur une même échelle en utilisant des intervalles de 2 centimètres: la fréquence de chaque intervalle sera le double qu'en utilisant des intervalles de 1 centimètre. Si bien que l'échelle employée sera diminuée de moitié. Par exemple, pour des intervalles de 1 cm, un poisson (n = 1) représente disons 10 unités sur le graphique; si on a des intervalles de 2 centimètres, ce même poisson représentera 5 unités, et pour des intervalles de 5 centimètres, ce poisson en représentera 2. L'échelle des longueurs serait inchangée. Relevés de cette façon, les différents polygones et histogrammes seront à peu près identiques.

Cet exemple illustre aussi le problème du choix correct de l'intervalle de catégories à prendre. Dans le cas ci-dessus, l'intervalle de 1 centimètre est trop petit et donne beaucoup de travail pour les calculs, le tracé, etc. Les chiffres indiqués sont seulement un échantillon de données beaucoup plus importantes, desquelles on peut facilement voir que les irrégularités s'étendant au-delà d'un ou deux groupes d'un centimètre dans la table donnée sont seulement les effets du hasard. L'exception possible est la pointe à 50 centimètres et la fréquence basse à 49 centimètres. Ceci existe, quoique beaucoup moins apparent, dans les données complètes. Cela est dû probablement à l'erreur commune d'arrondir les mesures (souvent inconsciemment). En ce cas, plusieurs poissons dont les longueurs réelles sont 49 (ou 51) centimètres, seraient pointés à 50 centimètres.

La meilleure répartition par groupes à utiliser (dans ce cas probablement 3 ou 5 cm) dépendra des renseignements fournis. Plus étendus seront les renseignements et plus complexe la distribution de fréquence, plus nombreux et plus fins seront les intervalles de groupement. Une bonne règle moyenne consiste à prendre un maximum de 20 intervalles et, sauf pour quelques intervalles aux extrémités, à avoir des nombres dans chaque intervalle ne descendant pas en dessous de 10.

Exemple 1.2.2

Le tableau suivant (Fitch, 1959) donne la composition des longueurs des maquereaux du Pacifique pris au large de là Californie durant les années 1956-57.

Relevons ces données sur un histogramme.

Recommençons en utilisant des répartitions par groupes de ½, 1 et 2 centimètres.

On trouvera que beaucoup de distributions de fréquence, une fois relevées, apparaîtront comme de simples pointes, avec des projections plus ou moins prononcées de part et d'autre des pointes. Les différences entre les distributions apparaîtront principalement comme des différences entre les positions des pointes - par exemple, la pointe, dans l'exemple 1.2.1 se situe entre 40 et 50 centimètres ainsi que de chaque côté de cette pointe. Une ou plus de trois quantités peuvent être utilisées pour définir le résultat de la distribution. La moyenne arithmétique est la plus généralement utilisée - ou plus simplement la moyenne habituellement désignée par m. Ainsi, si 10 poissons mesurent respectivement 15, 19, 17, 22, 14, 13, 18, 17, 16 et 18 centimètres, on a alors

Ceci peut s'écrire sous une forme plus générale, en désignant la longueur du poisson par x et en ajoutant un indice pour représenter la longueur d'un poisson particulier. Dans l'exemple donné, x1= 15, x2 = 19, etc., et nous pouvons écrire

Par extension, nous pouvons désigner par x1 la longueur d'un poisson quelconque le ie poisson où i peut avoir l'une des valeurs 1, 2, 3... 10 et m = 1/10 (somme de x1 quand i = 1, 2, 3... 10). Ceci peut s'écrire en symbole mathématique, en utilisant le symbole S pour somme de, et en plaçant les limites supérieures et inférieures de i en haut et en bas du symbole S de la façon suivante

De même que le symbole de la racine carrée indique qu'il faut prendre la racine carrée de la quantité suivant le symbole, de même le symbole S indique ce qu'il faut faire avec les quantités écrites après lui. Il nous indique d'avoir à ajouter une suite de grandeurs, toutes de même nature, indiquée par la nature de l'expression suivant le symbole S. Les nombres écrits au-dessus et en dessous de S nous indiquent quelles quantités particulières nous devons additionner.

L'expression peut se simplifier en omettant les limites de i lorsque - ce qui se passe habituellement - il est clair que c'est i qui prend, dans cet exemple, les valeurs de 1 à 10

ou même encore plus simplifiée quand les limites sont aussi claires

Par analogie, si nous voulons écrire une expression d'une autre moyenne que 10, mais d'une certaine moyenne non spécifiée, disons n (quand dans l'exemple n = 10), ceci donne


ou

ou

(1.1)

On utilise aussi le mode, valeur à laquelle atteint la ou les pointes, et la médiane ou point 50 pour cent, valeur telle que la moitié de la population a des valeurs inférieures à la médiane, et l'autre moitié des valeurs supérieures. Dans la plupart des distributions, la médiane sera située entre la moyenne et le mode, étant plutôt plus près de la moyenne (comme le suggère la position des mots dans un dictionnaire). L'emploi principal du mode n'est pas tant dans une simple distribution avec une pointe, mais la description d'une distribution plus complexe avec plusieurs pointes, par exemple la composition des longueurs d'une capture de poissons contenant plusieurs classes d'âge. Dans une telle distribution, la moyenne arithmétique peut être de beaucoup moins d'importance que les valeurs de chaque pointe (par exemple les longueurs de chaque classe annuelle d'âge). Le mode (ou les modes) est plus facilement déterminé en relevant les données sur un histogramme ou un polygone de fréquence et en interprétant les valeurs données par une courbe régulière tracée sur le graphique. Il est très influençable par les variations du hasard dans les données, si bien qu'un plus grand échantillonnage est alors nécessaire pour déterminer le mode avec quelque précision.

La médiane est moins influençable par des erreurs de hasard que le mode, quoique plus que la moyenne, cette dernière donnant la mesure la plus précise de la position de la distribution. Cependant, particulièrement quand les données ne sont pas groupées, ou groupées suffisamment, la médiane peut être calculée très vite. Si les données ne sont pas groupées, l'estimation de la médiane est donnée par le membre central si le nombre d'échantillons est impair, ou à mi-chemin entre les deux membres du centre si le nombre est pair. Si les données sont groupées, une estimation approximative de la médiane est donnée par le milieu de l'intervalle dans lequel se trouve le membre central; il est donné avec plus de précision par une proportion dans l'intervalle. Par exemple, dans un échantillonnage de 101 poissons, 40 ont moins de 16 centimètres de longueur, 15 ont entre 16 et 17 centimètres et 46 dépassent 17 centimètres. Le membre central est alors le 10e plus petit dans le groupe 16-17 centimètres et la valeur de là médiane est 16 + 10/15 = 16,7 centimètres.

Exemple 1.2.3

Cherchons la moyenne, la médiane et le mode de la distribution dans l'exemple 1.2.1. Comparons le temps nécessaire pour estimer chaque grandeur.

La médiane est au 225e poisson à partir du plus petit en montant ou du plus gros en descendant; elle se trouve dès lors dans le groupe des 44 centimètres. Si les mensurations des poissons ont été inscrites au centimètre le plus proche de telle façon que le groupe contienne dès poissons entre 43,5 et 44,5 centimètres, alors une estimation plus précise de la médiane est

(Remarquons que deux estimations de la médiane peuvent être faites en comptant à la fois à partir du plus grand en descendant et à partir du plus petit en montant et on pourrait les opposer chaque fois l'un à l'autre).

Un mode déterminé est situé à près de 30 centimètres avec d'autres probablement autour de 40 et 50 centimètres.

Exemple 1.2.4

Reprenons l'exemple 1.2.3 en utilisant les données de 1.2.2 à la fois comme indiqué et avec des groupements de ½ cm et de 1 centimètre. Comparons notre estimation de la position des modes en tenant compte que les données initiales se composent de poissons de 6 classes d'âge, les longueurs moyennes des classes d'âge étant approximativement 21 centimètres (4 poissons seulement), 27,5, 31, 33,5 et 38 centimètres (3 poissons seulement).

La moyenne (ou le mode ou la médiane) nous indiquera la position de la distribution - quelle est la moyenne ou la valeur (centrale ou la plus fréquente) des individus: dans l'exemple 1.2.1, les longueurs de la morue sont centrées autour de 50 centimètres. Nous devons aussi connaître comment ces longueurs varient par rapport à cette valeur centrale, si toutes les longueurs de poissons sont entre 49 et 51 centimètres ou si elles varient, comme dans l'exemple, entre 25 et 100 centimètres, ou même disons entre 5 et 150 centimètres. Si nous prenons les différences entre les valeurs individuelles et la valeur moyenne, certaines différences seront positives et d'autres négatives, et la valeur moyenne donnera environ 0. Nous prendrons alors le carré de la différence entre la valeur individuelle et la moyenne, et la valeur moyenne de cette différence au carré est appelée la variance. Par exemple, un groupe de dix poissons pris dans la population de l'exemple 1.2.1 présente des longueurs de

35, 38, 40, 44, 45, 47, 50, 52, 53 et 66 cm

Leur longueur moyenne est 47,00 centimètres; les différences respectives avec la moyenne sont

- 12, - 9, - 7, -3, -2, 0, + 3, + 5, + 16 et + 19 cm

si bien que la variance de la population formée par ce petit groupe de poissons est

La racine carrée de la variance, qui est en quelque sorte une valeur moyenne de la déviation de la moyenne, est appelée l'écart type. L'écart type de la population ci-dessus est 8,45 centimètres.

En langage mathématique, la variance est généralement symbolisée par S2. La formule de la variance est

M est la moyenne de la population, N le nombre total de la population. Si nous avons un échantillon disons de n individus d'une population, l'estimation de la variance sera*

* II faut noter que la distinction entre la valeur vraie d'un paramètre (moyenne, variance, etc.) d'une population totale et sa valeur estimée à partir d'un échantillon est d'une importance fondamentale dans la théorie des statistiques. Dans la plupart des livres, cette distinction est faite en utilisant des lettres grecques pour les valeurs réelles de la population et des lettres romaines pour leur estimation. Dans les applications simples, on ignore souvent cette distinction. C'était ici l'occasion d'en faire l'observation.

Cependant, la moyenne vraie M de la population ne sera pas habituellement connue et nous devrons nous servir de la moyenne de l'échantillon, m. L'estimation de la variance qui se suggère d'elle-même est ns2 = S (xi - m)2. Remplaçant chaque terme de cette expression en termes de M nous avons

Cette expression est simplement une somme de termes, et en les groupant dans un ordre légèrement différent, elle devient

Dans le deuxième terme, le facteur 2 (M - m) est commun à tous les termes de la somme, et peut donc être pris hors du signe S; dans le troisième terme, tous les facteurs sont les mêmes et il y en a n; l'expression peut donc s'écrire

(m - M)2 étant un carré est positif (ou nul si m = M). Si bien que S (xi -m)2 sera toujours inférieur ou tout au plus égal à S (xi -M)2.

Par conséquent, 1/n (xi - m)2 sera plus petit que 1/n (xi - M)2 et ainsi donnerait une estimation de la variance biaisée vers le bas. Ce résultat peut être légèrement amélioré en ne divisant pas par n mais par n-1. On peut démontrer mathématiquement que cette légère diminution compense exactement le degré de biais vers le bas; ainsi, pour une estimation exacte de la variance, nous avons


(1.3)

Les formules de moyenne et de variance peuvent être écrites de différentes façons pour faciliter les calculs. Ainsi nous avons, en reprenant la formule de la variance:

qui peut aussi s'écrire

ou

(1.4)

La forme 1.4 convient pour effectuer les calculs sur une machine à calculer qui permet rapidement d'effectuer des sommes de carrés. Disposés convenablement, les calculs peuvent se contrôler d'eux-mêmes facilement. D'abord, calculons S xi et la moyenne; ensuite, inscrivons x1 sur le clavier et portons-le au carré; ainsi apparaît sur la machine xi2; et enregistrons x sur le multiplicateur. N'effaçons pas ces entrées, mais inscrivons x2, élevons-le au carré de façon qu'apparaisse sur les résultats et au multiplicateur respectivement x12 + x22 et xi + x2. Répétons pour les n nombres et finalement nous obtenons S xi2 et S xi. Vérifions que S xi correspond à la valeur déjà obtenue. Ceci décèlera la plupart des erreurs probables telles que omission ou mauvaise lecture d'une valeur de x.

On peut considérablement simplifier les calculs et diminuer les chances d'erreur en prenant une bonne transformation des données brutes initiales. Par exemple, supposons que la pêche mensuelle pendant 6 mois ait donné les poids suivants 75, 67, 82, 73, 69 et 71 tonnes. Nous pouvons choisir une origine arbitraire de 70 par exemple et calculer la moyenne et la variance de 5, -3, 12, 3, -1 et 1 (2,83 et 28,17 respectivement). Tenons compte de la première échelle; la moyenne de la distribution originale est alors 2,83 + 70 = 72,83 tonnes. La variance n'est pas modifiée par un changement d'origine si bien que la variance de la première graduation est aussi 28,17 et l'écart type s = 5,31.

Les captures ci-dessus pourraient s'exprimer avec une échelle différente telle que 75000... 71000 kilogrammes. Exprimées en tonnes avec une origine à 70 tonnes, nous obtenons comme précédemment une moyenne de 2,83, une variance de 28,17 et un écart type de 5,31. Après la conversion en kilogrammes, nous devons ajouter 70 (pour avoir la bonne origine) et multiplier par 1000 (pour avoir la bonne échelle); la moyenne mensuelle est 72833 kilogrammes.

Ceci est un simple exemple d'une transformation qui montre que, au lieu de calculer (des sommes, des sommes de carrés) avec les valeurs de x, qui peuvent être grandes, nous pouvons faire les calculs avec une autre série de valeurs y obtenues de x par une relation directe y =f (x). Le plus simple est un changement d'origine tel que

y = x - a (comme dans le premier exemple où a = 70).

Les moyennes et variances sont données par la simple relation qui peut être déduite tout de suite des équations 1.1 et 1.2:

Moyenne de x = Mx = My + a

Variance de x = S2x = S2y

Une autre transformation simple est le changement d'échelle.

y = bx (comme dans le deuxième exemple où b = 1000)

On a ainsi Mx = 1/b My

Les deux transformations peuvent se combiner, y = b (x - a)

Exemple 1.2.5

Les poids des poissons mis à quai à l'île Rameswaran (Sud de l'Inde) pendant douze mois (juillet 1953-juin 1954) ont été 205, 218, 150, 136, 89, 55, 112, 28, 93, 105, 186, 253 tonnes (Krishnamurthi, 1957).

Calculons la moyenne mensuelle, la variance et l'écart type des débarquements mensuels; vérifions que la portée entre (253 - 28 = 225) est environ 3,2 fois l'écart type.

Si les données sont rangées en intervalles de classes, par exemple en compositions de longueurs donnant le nombre de poissons dans chaque groupe de centimètres, la disposition des calculs de la moyenne et de la variance diffère légèrement. La valeur de chaque classe, par exemple son point-milieu, doit être comprise f fois, f étant le nombre d'individus dans la classe. Ainsi les équations 1.1 et 1.4 peuvent s'écrire à nouveau de la façon suivante

(1.5)

(1.6)

k = le nombre de classes
n == le nombre d'individus = S fi

Un changement d'origine, avant de commencer les calculs, sera probablement très appréciable dans ces calculs; les méthodes s'expliquent mieux par un exemple montrant les calculs de la moyenne et de la variance des longueurs des échantillons de Rastrelliger recueillis sur le marché de Bangkok en octobre 1958. L'origine est prise à 17,5 centimètres et les unités à ½ centimètre.

Groupes de longueur (cm)

Fréquence

Nouvelle échelle



xi

fi

yi

fiyi

fiyi2

15,5

8

-4

-32

128

16,0

7

-3

-21

63

16,5

4

-2

-8

16

17,0

2

-1

-2

2

17,5

8

0

S fiyi = -63


18,0

11

+1

11

11

18,5

2

+2

4

8

19,0

3

+3

9

27

19,5

1

+4

4

16


n = 46


S fiyi2 =271

On a choisi l'origine proche de la moyenne probable de la répartition de l'échantillon - un bon choix de l'origine réduit les calculs, mais une différence de un ou deux groupes en plus ou en moins ne changera pas beaucoup le travail. La colonne des valeurs fiyi, s'obtient en multipliant la 2e et la 3e colonnes et les valeurs fiyi2 peuvent s'obtenir en multipliant de nouveau par yi sans effectuer le carré de yi pour autant. En calculant la moyenne, les valeurs positives et négatives de fiyi sont additionnées séparément et on a

Dans l'échelle primitive, la longueur moyenne = 17,5 -0,38 == 17,12 cm

l'écart type = 1,2 cm.

Si les intervalles de classes ne sont pas des unités, si bien que les échelles de x et de y peuvent être différentes comme dans l'exemple ci-dessus, il faut bien faire attention de ramener les résultats de la moyenne et de la variance à la bonne échelle.

La vérification de tous les résultats obtenus par ces calculs doit être poussée au point correspondant à l'exactitude et à la précision exigées dans leur application pratique. Recommencer les mêmes calculs, outre qu'ils sont fastidieux, serait d'autre part inefficace pour déceler et éliminer les erreurs, car il n'est pas improbable qu'elles se répètent. Un bon contrôle où la précision est nécessaire est de comparer, non seulement S x et S x2, mais aussi S (x + 1) et S (x + 1)2.

Ainsi, appliqué aux données de l'exemple 1.2.1 nous comparerions

S x=2 × 25 + 7 × 26+...+1 × 102= A

et S x2 = 2 × (25)2 + 7 × (26)2 +... + 1 × (102)2 = B

et aussi (x + 1) = 2 × 26 + 7 × 27 +... + 1 × 103 = C

S (x + l)2 = 2 × (26)2 + 7 × (27)2 +... + 1 × (103)2 = D

Chaque poisson comptera pour une différence de 1 entre A et C et puisqu'il y a 449 poissons dans le premier contrôle, pour s'assurer que A (et par suite C) a été bien calculé, il faut voir si A + 449 = C. De même D devrait être plus grand que B par un nombre connu égal au double de la somme des longueurs plus le nombre d'observations, c'est-à-dire

D = B + 2 × A + 449

Exemple 1.2.6

Calculons avec les données de l'exemple 1.2.1 les grandeurs A, B, C, D ci-dessus et vérifions que

(i)

C = A + 449

(ii)

D = B + 2A + 449

de même avec les données de l'exemple 1.2.2, qui se réfère à un total de 1011 poissons, calculons S x, S (x + 1) et S x2 et S (x + 1)2 et vérifions que

(i)


S (x + 1) = S x + 1011


et


(ii)


S (x+ l)2 == S x2 + 2 x + 1011

Ce sont des cas particuliers des règles générales, que l'on doit toujours suivre s'il n'y a pas eu d'erreurs dans les calculs, que

(i)

(ii)

n est le nombre d'observations.

Une simple vérification d'exactitude (mais non de précision) qui devrait toujours se faire est de calculer l'amplitude de la distribution (la plus grande valeur moins la plus petite) et de la diviser par l'écart type.

L'amplitude sera normalement de 3 à 6 fois l'écart type, étant la plus grande quand il y a une seule valeur extrême et quand le nombre dans la distribution des classes est grand. Il est nécessaire de distinguer exactitude et précision. Si la longueur moyenne d'une quantité de poissons est 43,26 centimètres, une estimation de 43,18 centimètres est très précise et exacte, une estimation de 43 centimètres n'est pas: très précise mais elle est exacte, une estimation de 37,2 centimètres est précise mais inexacte et une estimation de 35 centimètres n'est ni précise ni exacte. Des précisions déterminent plus ou moins étroitement les, limites dans lesquelles les quantités se trouvent incluses. Ainsi, une estimation de 37,2 contiendrait probablement toutes les valeurs de 37,15 à 37,25. La précision est alors en rapport avec le nombre de chiffres significatifs de la grandeur donnée. L'exactitude est la grandeur donnée avec la plus petite marge possible de l'estimation de la valeur réelle.


Page précédente Début de page Page suivante