Introduction
Le travail mené par un biologiste des pêches demande généralement un certain nombre d'analyses statistiques et la plupart des cours en biologie des pêches comprennent au moins les statistiques élémentaires.
Le plus souvent cependant, le manque de pratique fait que l'on oublie ce qui a été appris, avec pour conséquence la sous-utilisation d'un outil très précieux.
Cette note a pour but de faire un bref rappel de deux techniques statistiques très puissantes - analyse de régression et de corrélation - et d'indiquer quelques uns de leurs plus communs champs d'applications par les biologistes des pêches.
Régression linéaire
Simplement dit, la régression linéaire est une technique pour quantifier la relation qui peut être vue sur un diagramme de dispersion impliquant deux variables (figure la) dont la relation peut être résumée par une équation de “meilleur ajustement” de la forme:
| y = a + bx | (1) |
Dans cette équation, y représente la coordonnée selon l'axe vertical du graphique (ordonnée), tandis que x représente la coordonnée selon l'axe horizontal (abscisse); la valeur a (qui peut être négative, positive ou nulle) est appelée l'intercept ou ordonnée à l'origine, tandis que la valeur b (qui peut être négative ou positive) est appelée pente ou coefficient de régression.
| Nombre | valeur de x | valeur de y | Nombre | valeur de x | valeur de y |
|---|---|---|---|---|---|
| 1 | 9,0 | 0,50 | 7 | 6,7 | 1,00 |
| 2 | 9,4 | 0,50 | 8 | 8,4 | 0,50 |
| 3 | 7,4 | 1,23 | 9 | 8,0 | 0,50 |
| 4 | 9,7 | 1,00 | 10 | 10,0 | 0,50 |
| 5 | 10,4 | 0,30 | 11 | 9,2 | 0,50 |
| 6 | 5,0 | 1,50 | 12 | 6,2 | 1,00 |
| 13 | 7,7 | 0,50 |
La marche à suivre pour obtenir les valeurs de a et b correspondant à un jeu de couples de données y et x (tel que représenté à la figure 1 et/ou au tableau 1) est la suivante:
| 1ère | étape: | Calculer pour chaque couple y, x les valeurs de x², y² et x.y. |
| 2e | étape: | Calculer la somme (∑) de ces quantités pour tous les couples x, y, en même temps que les sommes des x et des y. Les résultats des étapes 1 et 2 devront être semblables à ce qui suit. |
| Nombres de couples de données | x | x² | y | y² | x.y |
|---|---|---|---|---|---|
| 1 | … | … | … | … | … |
| 2 | … | … | … | … | … |
| 3 | … | … | … | … | … |
| . | |||||
| . | |||||
| . | |||||
| n | … | … | … | … | … |
| Sommes | ∑x | ∑x² | ∑y | ∑y² | ∑x.y |
| 3e | étape: | Estimer la pente b au moyen de la relation: |
| 4e | étape: | Estimer l'ordonnée à l'origine a grâce à la relation: |
En utilisant les valeurs de a et b obtenues grâce aux équations 2 et 3, on peut tracer, au travers des points d'un diagramme de dispersion, la droite la mieux ajustée, et estimer visuellement si les points sont bien “expliqués” par la droite (figure 1b).
Corrélation
Corrélation et régression sont étroitement liées, et les deux peuvent être considérées en fait comme deux aspects d'une même chose.
La corrélation entre deux variables, est, exprimée en termes simples, le degré d'association entre ces deux variables. Ce degré d'association est exprimé par une simple valeur appelée un coefficient de corrélation r, qui peut prendre toutes les valeurs comprises dans l'intervalle -1 à +1. Si r est négatif, cela signifie qu'une des variables, (soit x, soit y) tend à décroître quand l'autre augmente; dans ce cas on a une corrélation négative (ce qui correspond à une valeur négative de la pente b de la droite de régression). Si par contre r est positif, cela signifie qu'une des variables augmente en même temps que l'autre (ce qui correspond à une valeur positive de la pente b de la droite de régression).
La valeur de r est facilement calculée pour un jeu de couples de données (x, y) en utilisant le même tableau et les mêmes sommes que montrés dans l'étape 2 de la section “régression linéaire”. Ainsi r peut être obtenu - indirectement à partir de la relation:
qui donne la valeur du “coefficient de détermination” (= r²). Il ne reste plus alors qu'à calculer:
c'est à dire prendre la racine carrée du coefficient de détermination afin d'obtenir la valeur absolue de r, puis à ajouter le signe (+ ou -) selon que la corrélation est positive ou négative (ce qui peut être estimé à vue sur le diagramme de dispersion, ou par le calcul de la pente b de la droite de régression, prenant pour r le signe de b).
Quand on a calculé une valeur de r, on voudrait bien savoir également si cette corrélation est uniquement dûe au hasard. Ceci peut être établi en testant si la valeur r calculée est “significative”, c'est à dire en regardant si la valeur absolue de r calculée est plus grande que ou égale à une valeur critique de r donnée dans une table statistique (voir la table des valeurs critiques de r à l'annexe 1).
Exercice: Calculer a, b et r pour les données indiquées au tableau 1 et tester, au moyen des tables de l'annexe 1 si la valeur calculée de r est significative à P = 0,01 et P = 0,05.
Linéarisation en analyse de régression
La régression et la corrélation, ainsi que souligné précédemment, reposent sur l'hypothèse d'une relation “linéaire” entre les deux variables impliquées (ce qui signifie que la ligne la mieux ajustée aux données est une droite). Il y a cependant plusieurs cas, en biologie des pêches, où la relation entre deux variables n'est pas linéaire, et un exemple bien connu illustrant ceci est la relation taille-poids qui s'écrit:
| W = α . Lb | (6) |
et dans laquelle le poids (W) est proportionnel à une certaine puissance b de la longeur (L) (voir figure 2a).
Figure 1a. Un diagramme de dispersion de valeurs x et y. Notez qu'en général y décroit quand x croît, ce qui suggère une régression et un coefficient de corrélation négatifs. (Valeurs extraites du tableau 1)
Figure 1b. Mêmes données qu'en la, mais ajustées par la régression y = 2,16 - 1,73x, avec r = 0,756
Les données taille-poids peuvent cependant être ajustées par régression linéaire si l'on prend les logarithmes décimaux des deux parties de la relation 6, ce qui donne:
| log10 W = a + b log10L | (7) |
Comme on peut le voir à la figure 2b, les logarithmes des longueurs et des poids s'ajustent très bien par une régression linéaire dans laquelle:
| y = log10W | (8a) |
et
| x = log10L | (8b) |
Ainsi, ajuster une relation taille-poids de la forme donnée par l'expression 6 à un jeu de données longueur/poids (tel que celui donné au tableau 2) consiste à accomplir les étapes suivantes:
| Nombre | LT (cm) | W (g) | Log10 L (=x) | Log10 W (=y) |
|---|---|---|---|---|
| 1 | 8,1 | 6,3 | 0,908 | 0,799 |
| 2 | 9,1 | 9,6 | 0,959 | 0,982 |
| 3 | 10,2 | 11,6 | 1,009 | 1,064 |
| 4 | 11,9 | 18,5 | 1,076 | 1,267 |
| 5 | 12,2 | 26,2 | 1,086 | 1,425 |
| 6 | 13,8 | 36,1 | 1,140 | 1,558 |
| 7 | 14,8 | 40,1 | 1,170 | 1,603 |
| 8 | 15,7 | 47,3 | 1,196 | 1,675 |
| 9 | 16,6 | 65,6 | 1,220 | 1,817 |
| 10 | 17,7 | 69,4 | 1,248 | 1,841 |
| 11 | 18,7 | 76,4 | 1,272 | 1,883 |
| 12 | 19,0 | 82,5 | 1,279 | 1,916 |
| 13 | 20,6 | 106,6 | 1,314 | 2,028 |
| 14 | 21,9 | 119,8 | 1,340 | 2,078 |
| 15 | 22,9 | 169,2 | 1,360 | 2,228 |
| 16 | 23,5 | 173,3 | 1,371 | 2,239 |
1 De la partie méridionale de la mer de Chine du Sud.Données originales
| 1ère | étape: | Prendre le logarithme décimal des longueurs et des poids. | |
| 2e | étape: | Calculer les sommes données dans la section régression linéaire, avec les valeur x et y définies par 8a et 8b. | |
| 3e | étape: | Calculer a et b en utilisant les équations 3 et 2 respectivement (ici la pente est b). | |
| 4e | étape: | Prendre l'antilogarithme pour obtenir la valeur α de l'équation 6. | |
| 5e | étape: | Ecrire l'équation 6 ainsi trouvée. | |
| 6e | étape: | En utilisant les sommes calculées à l'étape 2, calculer les valeurs de r² et r et vérifier si la valeur de r est significative. | |
| Exercice: | (a) | Effectuer les différentes étapes 1 à 6 pour les couples de données longueurs-poids indiquées au tableau 2. On prendra P = 0,01. | |
| (b) | Citer d'autres transformations linéaires et donner des exemples de leur utilisation en biologie des pêches. | ||
Figure 2a. Relation taille-poids chez le Nemipterus marginatus dans la Mer de Chine méridionale (Extrait des données du Tableau 2)
Figure 2b. Mêmes données après conversion en logarithmes décimaux