Previous PageTable Of ContentsNext Page

5. TECHNIQUES D’ECHANTILLONNAGE

 

5.1. Concepts fondamentaux de l’échantillonnage

L’échantillonnage consiste essentiellement à tirer des informations d’une fraction d’un grand groupe ou d’une population, de façon à en tirer des conclusions au sujet de l’ensemble de la population. Son objet est donc de fournir un échantillon qui représentera la population et reproduira aussi fidèlement que possible les principales caractéristiques de la population étudiée.

Les principaux avantages de la technique d’échantillonnage par rapport à un énumération complète sont le moindre coût, la rapidité, la portée et la précision accrues. Tous ceux qui soutiennent que le seul moyen d’obtenir des informations exactes sur une population est de faire un recensement exhaustif oublient que les sources d’erreurs sont nombreuses dans un dénombrement complet et qu’un recensement à cent pour cent peut non seulement être faussé par un grand nombre d’erreurs, mais être pratiquement irréalisable. En effet, avec un échantillon on peut obtenir des résultats plus exacts car il est plus facile de contrôler les sources d’erreurs liées à la fiabilité et à la formation des agents de terrain, à la clarté des instructions, aux mesures et à l’enregistrement, au mauvais entretien des instruments de mesure, à l’identification des unités d’échantillonnage, au travail des enquêteurs et au traitement et à l’analyse des données. Plus l’échantillon est petit, plus la supervision est efficace. De plus, le degré de précision des estimations tirées de certains types d’échantillons, peut être estimé à partir de l’échantillon même. En fin de compte on obtient souvent avec une enquête par sondage une réponse plus exacte qu’avec un recensement complet, le tout en peu de temps, avec moins de personnel, moins de travail et moins d’argent.

.

La méthode d’échantillonnage la plus simple consiste à sélectionner un certain nombre d’unités d’échantillonnage considérées comme "représentatives" de l’ensemble de la population. Par exemple, pour estimer le volume global d’un peuplement forestier, l’enquêteur peut choisir un petit nombre d’arbres qui lui paraissent de dimensions moyennes et typiques de la zone considérée, et mesurer leur volume. Les méthodes simples, telles que marcher dans la forêt, s’arrêter au hasard et lancer une pierre les yeux fermés, ou tout autre démarche excluant en apparence toute possibilité de choix délibéré des unités d’échantillonnage, sont très attirantes à cause de leur simplicité, mais elles ont évidemment des chances d’être faussées par le jugement de l’enquêteur, de sorte que les résultats seront biaisés et non fiables. Même si l’objectivité de l’enquêteur ne fait pas le moindre doute, d’importantes erreurs de jugement, conscientes ou inconscientes, peuvent se produire, et elles seront rarement identifiées. Or ces erreurs peuvent être bien supérieures à l’avantage de l’exactitude accrue qui est censée dériver de la sélection délibérée ou intentionnelle des unités d’échantillonnage. Sans compter qu’un échantillonnage subjectif ne permet pas d’évaluer la précision des estimations calculées à partir des échantillons. Un échantillonnage subjectif est statistiquement irrationnel et en tant que tel, il est à éviter.

Si l’échantillonnage est fait de façon à ce que chaque unité de la population ait quelque chance d’être incluse dans l’échantillon et si la probabilité de sélection de chaque unité est connue, on parle de méthode d’échantillonnage probabiliste. L’une de ces techniques est la sélection aléatoire, à ne pas confondre avec la sélection au hasard, qui implique un processus de sélection rigoureux de type tirage au sort. Dans ce manuel, le terme échantillonnage se réfère, sauf indication contraire, à une forme quelconque d’échantillonnage probabiliste. La probabilité qu’une unité d’échantillonnage quelconque soit incluse dans l’échantillon dépend de la procédure adoptée. Il faut toutefois savoir que la précision et la fiabilité des estimations obtenues à partir d’un échantillon peuvent être évaluées uniquement dans le cas d’un échantillon probabiliste, le contrôle des erreurs y étant relativement facile.

Le but d’une enquête par sondage est de minimiser l’erreur dans les estimations finales. Toute enquête forestière comportant des activités de collecte et d’analyse de données peut être entachée de diverses erreurs. Il en existe deux sortes: i) les erreurs non liées à l’échantillonnage et ii) les erreurs d’échantillonnage. Les erreurs non liées à l’échantillonnage, par exemple celles dues à la localisation des unités, à la mesure des caractéristiques, à l’enregistrement des fautes, aux biais des enquêteurs et aux méthodes d’analyse défectueuses peuvent représenter une grande part de l’erreur totale des résultats finaux dans les recensements complets comme dans les enquêtes par sondage. Cette part a des chances d’être plus grande dans un recensement complet car un projet échantillon, de plus petite taille, permet d’être plus sélectif dans l’affectation du personnel aux opérations de l’enquête, de leur offrir une formation plus complète, et de focaliser davantage l’attention sur la réduction des erreurs non liées à l’échantillonnage. L’erreur d’échantillonnage est due au fait que seule une fraction de la surface de forêt est recensée. Etant donné qu’un échantillon, même probabiliste, se fonde sur des observations qui ne concernent qu’une fraction de la population, il ne peut généralement pas représenter parfaitement la population. La grandeur moyenne des erreurs d’échantillonnage de la majorité des échantillons probabilistes peut être estimée d’après les données collectées, et elle dépend de la taille de l’échantillon, de la variabilité à l’intérieur de la population et de la méthode d’échantillonnage adoptée. Ainsi, avec un échantillon probabiliste, il est possible de déterminer à l’avance la dimension que doit avoir l’échantillon pour obtenir le degré de précision souhaité, lequel doit être spécifié.

Un plan d’échantillonnage est déterminé par la taille des unités d’échantillonnage, leur nombre, leur distribution sur la surface totale, le type et le mode de mesure dans les unités sélectionnées et les procédures statistiques adoptées pour l’analyse des données de l’enquête. Des méthodes d’échantillonnage et des techniques d’estimation différentes ont été mises au point spécifiquement en fonction des besoins des statisticiens enquêteurs, de sorte que l’utilisateur a de vastes possibilités de choix adaptées à des situations spécifiques. Il est possible de choisir la méthode ou la combinaison de méthodes avec laquelle on obtiendra le degré de précision souhaité, à raison d’un coût minimum. Pour de plus amples détails, on peut se référer à Chacko (1965) et Sukhatme et al, (1984).

5.1.1. Les principales étapes d’une enquête par sondage

Dans toute enquête par sondage, on commence par déterminer le type de données à collecter et le degré d’exactitude des résultats auquel on veut arriver. Ensuite, on formule le plan d’échantillonnage afférent à chaque caractère sur lequel on compte recueillir des informations. On définit également la combinaison des procédures d’échantillonnage relatives aux différents caractères, pour éviter les doubles emplois sur le terrain. Troisièmement, on organise avec soin les opérations en champ, en prévoyant des crédits suffisants pour la supervision du travail du personnel de terrain. Enfin, on analyse les données collectées au moyen de techniques statistiques appropriées et on rédige un rapport complet et détaillé décrivant les hypothèses sur lesquelles on s’est fondé, le plan d’échantillonnage et les résultats de l’analyse statistique. Le rapport contiendra une estimation de la marge des erreurs d’échantillonnage des résultats et, le cas échéant, les effets possibles des erreurs non liées à l’échantillonnage. Quelques-unes de ces étapes sont décrites de façon plus approfondie dans les passages qui suivent.

i) Définition des objectifs de l’enquête: Pour commencer, les objectifs de l’enquête doivent être examinés attentivement. Par exemple, pour une enquête forestière, on détermine la superficie qui sera couverte par l’enquête. Les caractéristiques sur lesquelles des informations seront collectées et le niveau de détail souhaité seront précisés. Si l’enquête porte sur des arbres, on déterminera les espèces d’arbres qui devront être recensés et l’on décidera s’il convient d’énumérer uniquement les arbres faisant partie de classes de diamètres déterminées ou si l’on estimera aussi le volume des arbres. C’est aussi durant la première étape que l’on détermine le degré de précision que devront avoir les estimations.

ii) Elaboration d’un diagramme des unités: Dans tout échantillon probabiliste, la première exigence est l’établissement d’une base de sondage. La structure d’une enquête par sondage est largement déterminée par cette base. La base de sondage est une liste des unités d’échantillonnage qui peuvent être clairement définies et identifiées dans la population. Ces unités peuvent être des compartiments, des sections topographiques, des bandes d’une certaine largeur ou des parcelles de forme et de taille définies.

L’élaboration d’une base de sondage adaptée aux objectifs d’une enquête demande de l’expérience et peut fort bien absorber une part importante des travaux de planification, en particulier dans les enquêtes forestières où il peut être nécessaire de dresser une liste artificielle des unités d’échantillonnage, faites de sections topographiques, de bandes ou de parcelles. Par exemple, dans une enquête forestière, une base de sondage peut se présenter sous la forme d’une carte appropriée de la superficie forestière. Le mode de sélection des unités d’échantillonnage doit permettre d’identifier sur le terrain une unité spécifique devant être incluse dans l’échantillon. Le choix est fonction de plusieurs facteurs: l’objet de l’enquête, les caractéristiques qui doivent être observées dans les unités sélectionnées, la variabilité entre des unités d’échantillonnage d’une taille donnée, le plan d’échantillonnage, le plan des travaux de terrain, et le coût total de l’enquête. Le choix est aussi déterminé par des considérations pratiques. Par exemple, dans des zones de collines, il n’est pas toujours possible de prendre des bandes comme unités d’échantillonnage, et les compartiments ou les sections topographiques peuvent être plus appropriés. En général, pour une intensité d’échantillonnage donnée (proportion de la surface recensée), plus les unités d’échantillonnage sont petites, plus l’échantillon est représentatif et plus les résultats ont de chances d’être précis.

Choix d’un plan d’échantillonnage: Si le plan d’échantillonnage doit être de nature à fournir une mesure statistiquement significative de la précision des estimations finales, l’échantillon doit être probabiliste, en ce sens que chaque unité de la population doit avoir une probabilité connue d’être incluse dans l’échantillon. Le choix des unités à inscrire sur la liste doit être basé sur une règle objective qui ne laisse aucune part à l’opinion de l’homme de terrain. La détermination du nombre d’unités à inclure dans l’échantillon et la méthode de sélection sont également fonction du coût admissible de l’enquête et de la précision des estimations finales.

Organisation des travaux sur le terrain: Une enquête par sondage n’est pleinement réussie que si les opérations de terrain sont fiables. Dans le domaine forestier, les travaux sur le terrain doivent être organisés avec le plus grand soin autrement, même si le plan d’échantillonnage est excellent, les résultats de l’échantillon risqueraient d’être incomplets ou trompeurs. Le choix d’un personnel adéquat, une formation intensive, des instructions claires et une bonne supervision des opérations de terrain sont essentiels pour obtenir des résultats satisfaisants. Les équipes itinérantes doivent être capables de localiser correctement les unités sélectionnées et enregistrer les mesures nécessaires conformément aux instructions spécifiques reçues. Les superviseurs vérifient une partie de leur travail sur le terrain et s’assurent que l’enquête qui y effectuée correspond en tous points au plan.

Analyse des données : En fonction du plan d’échantillonnage utilisé et de l’information collectée, on utilisera les formules adéquates pour obtenir les estimations et calculer leur degré de précision. Une contre-vérification des calculs est souhaitable pour garantir l’exactitude de l’analyse.

Enquête préliminaire (essais pilotes): La conception d’un plan d’échantillonnage approprié à une enquête forestière demande une bonne connaissance de la théorie statistique et des données concernant la nature de la zone forestière, le mode de variabilité et le coût opérationnel. Dans le cas où l’on ne possède pas ces connaissances, il est parfois nécessaire d’effectuer une enquête pilote à petite échelle statistiquement planifiée, avant de se lancer dans une enquête à grande échelle sur toute la superficie de forêt. Ces enquêtes préparatoires, ou pilotes, fourniront les renseignements voulus sur la variabilité du matériel et offriront la possibilité d’essayer et d’améliorer les procédures en champ, de former des hommes de terrain, et d’étudier l’efficacité opérationnelle d’un plan. Une enquête pilote donnera aussi des renseignements pour estimer les différentes composantes du coût des opérations, par exemple le temps de trajet, le temps de localisation et de recensement des unités d’échantillonnage etc... Ces informations seront essentielles pour définir le type de plan et l’intensité d’échantillonnage appropriés aux objectifs de l’enquête.

5.1.2. Terminologie d’échantillonnage

Après avoir expliqué les concepts fondamentaux et les étapes d’un plan d’échantillonnage, nous allons maintenant définir de façon plus précise quelques termes généraux pour faciliter l’étude des différents plans d’échantillonnage décrits dans les autres sections.

Population : Le mot population désigne l’ensemble des unités parmi lesquelles l’échantillon est prélevé. Si une surface forestière est divisée en un certain nombre de compartiments (ou blocs) qui sont les unités d’échantillonnage, ces compartiments constituent la population des unités d’échantillonnage. En revanche, supposons qu’une surface de forêt soit divisée en mille bandes de 20 m de large chacune, les mille bandes forment la population. De même, si la surface de forêt est divisée en parcelles d’un demi hectare l’une, l’ensemble de ces parcelles forme la population.

Unités d’échantillonnage : Les unités d’échantillonnage peuvent être des unités administratives ou des unités naturelles, par exemple des sections topographiques et des sous-compartiments, ou encore des unités artificielles, par exemple des bandes d’une largeur donnée ou des parcelles de forme et de taille définies. L’unité doit être un élément bien défini ou un groupe d’éléments identifiable dans la surface de forêt, dont les caractéristiques que l’on compte étudier peuvent être observées. La population est donc subdivisée en unités appropriées à l’objet de l’enquête, appelées unités d’échantillonnage.

Base de sondage : Une liste d’unités d’échantillonnage est une base de sondage. Une population est " finie " si elle comprend un nombre fini d’unités d’échantillonnage.

Echantillon : Une ou plusieurs unités d’échantillonnage sélectionnées dans une population suivant une procédure définie constituent un échantillon.

Intensité de l’échantillonnage : L’intensité de l’échantillonnage est le rapport du nombre d’unités incluses dans l’échantillon au nombre d’unités comprises dans la population.

Total de population : Supposons une population finie composée d’unités U1, U2, …, UN. Notons yi la valeur de la caractéristique de la i-ème unité. Par exemple, les unités peuvent être des bandes et les caractéristiques peuvent être le nombre d’arbres d’une espèce déterminée à l’intérieur d’une bande. La somme des valeurs yi ( i = 1, 2, …, N), à savoir,

(5.1)

est appelée total de population. Dans notre exemple, celui-ci est le nombre moyen d’arbres de l’espèce spécifique dans toute la population.

Moyenne de la population: La moyenne arithmétique

(5.2)

est appelée moyenne de la population. Ici, il s’agit du nombre moyen d’arbres de l’espèce considérée, par bande.

Variance de la population: la variance de la population est une mesure de la variation entre les unités de la population

(5.3)

Dans notre exemple, la variance de la population mesure la variation du nombre d’arbres de l’espèce considérée, entre les bandes. Des valeurs élevées indiquent une variation importante entre les unités de la population, alors que des valeurs faibles montrent que les valeurs de la caractéristique dans les unités sont proches de la moyenne de la population. La racine carrée de la variance est connue sous le nom d’ écart-type.

Coefficient de variation : Le coefficient de variation est le rapport, généralement exprimé en pourcentage, de l’écart type à la valeur de la moyenne arithmétique

(5.4)

Du fait qu’il est adimensionnel, le coefficient de variation est un instrument précieux pour comparer les variations de deux ou plusieurs populations ou ensembles d’observations.

Paramètre : On appelle paramètre toute fonction des valeurs des unités d’une population. La moyenne de la population, la variance, le coefficient de variation etc... sont des exemples de paramètres de population. Dans la théorie de l’échantillonnage, le problème est d’estimer les paramètres à partir d’un échantillon, au moyen d’une procédure permettant de mesurer la précision des estimations.

Estimateur, estimation : Notons y1, y2, …, yn les observations d’un échantillon de taille n. Toute fonction des observations effectuées sur un échantillon est une statistique. Une statistique utilisée pour estimer un paramètre de la population est un estimateur. Par exemple, la moyenne d’un échantillon est un estimateur de la moyenne de la population. On appelle estimation toute valeur spécifique d’un estimateur calculée à partir d’un échantillon observé.

Erreur provenant de l’estimation : Une statistique t est appelée estimateur non biaisé d’un paramètre q de la population si son espérance mathématique (ou valeur probable), notée E(t), est égale à q . Avec une procédure d’échantillonnage de type probabiliste, on obtient, par répétition, un nombre certain nombre d’échantillons possibles. Si les valeurs de la statistique t sont calculées pour chaque échantillon possible et si la moyenne des valeurs est égale à la valeur q associée à la population, on dit que t est un estimateur non biaisé de q , basé sur la procédure d’échantillonnage. La répétition de la procédure et du calcul des valeurs de t est une notion purement théorique, ces opérations n’étant pas effectuées dans la réalité, mais l’idée selon laquelle on peut dériver toutes les estimations possibles en répétant le processus d’échantillonnage est fondamentale pour l’étude du biais. Si E(t) n’est pas égal à q , la statistique t est un estimateur biaisé de q et le biais est donné par biais = E(t) - q . L’introduction d’un processus réellement aléatoire pour la sélection d’un échantillon est un pas important pour éviter les biais. Dans les enquêtes forestières, où les experts tendent à choisir des étendues de forêt typiques pour les énumérations, les estimations sont inévitablement biaisées, même si leur bonne foi n’est pas en cause.

Variance d’échantillonnage : La différence entre une estimation d’un échantillon et la valeur de la population est appelée erreur d’échantillonnage de l’estimation; on ne connaît évidemment pas l’amplitude de cette erreur puisqu’on ne connaît pas la valeur de la population. Etant donné que le plan d’échantillonnage donne lieu à différents échantillons possibles, les estimations varient d’un échantillon à l’autre. Sur la base de ces estimations possibles, on peut obtenir une mesure de l’amplitude moyenne, par rapport à tous les échantillons possibles, des carrés de l’erreur d’échantillonnage. Il s’agit de l’erreur quadratique moyenne (MSE) de l’estimation qui est essentiellement une mesure de la variation d’un estimateur par rapport à la valeur réelle de la population. En symboles, MSE = E[t - q ]2. La variance d’échantillonnage (V(t)) est une mesure de l’écart de l’estimation par rapport à son espérance mathématique. Elle est définie comme l’amplitude moyenne par rapport à tous les échantillons possibles des carrés des écarts de l’estimateur par rapport à son espérance mathématique et est donnée par V(t) = E[t - E(t)]2.

Remarquons que la variance d’échantillonnage coïncide avec l’erreur quadratique moyenne dans le cas où t est un estimateur non biaisé. Généralement, l’amplitude de l’estimation de la variance d’échantillonnage calculée à partir d’un échantillon donne une idée de l’utilité d’une estimation relative à un échantillon. Plus l’échantillon est grand et plus la variabilité entre les unités constituant la population est petite, plus l’erreur d’échantillonnage sera petite et plus les résultats sont fiables.

Erreur type d’un estimateur : L’erreur-type de l’estimateur est la racine carrée de sa variance d’échantillonnage. L’erreur-type d’une estimation divisée par la valeur de l’estimation est l’erreur type relative, habituellement exprimée en pourcentage.

Exactitude et précision : L’erreur-type d’une estimation, obtenue à partir d’un échantillon, ne tient pas compte du biais. On peut donc dire que l’erreur-type ou la variance d’échantillonnage de l’estimation mesure à l’échelle inverse la précision de l’estimation, plutôt que son exactitude. L’exactitude se réfère habituellement à l’ampleur des écarts entre l’estimation d’un échantillon et la moyenne m = E (t) qui serait obtenue en appliquant plusieurs fois le procédé expérimental, le biais étant ainsi mesuré par m - q .

Le point le plus important, c’est l’exactitude de l’estimation d’un échantillon, la précision avec laquelle nous sommes capables de mesurer, dans la majorité des cas. Nous nous efforçons de concevoir l’enquête et d’analyser les données en utilisant des méthodes statistiques propres à maximiser la précision et à minimiser le biais.

Limites de confiance : Si l’estimateur t suit une loi de distribution normale (hypothèse généralement valide pour les échantillons de grande taille), un intervalle de confiance défini par une limite inférieure et une limite supérieure, inclut normalement le paramètre de la population q , à un seuil de probabilité déterminé. Les limites sont données par les relations

Limite inférieure = t - z (5.5)

Limite supérieure = t + z (5.6)

est l’estimation de la variance de t et z la valeur de l’écart réduit correspondant à une probabilité de confiance souhaitée P, exprimée en pourcentage. Par exemple, si z est égal à 1.96, on dit que les chances que la valeur réelle de q soit contenue dans l’intervalle aléatoire défini par les limites de confiance supérieure et inférieure sont de 95 pour cent. Les limites de confiance spécifient l’amplitude prévue de la variation de la moyenne de la population et stipulent le degré de confiance que nous devrions attacher aux résultats de nos échantillons. Si la taille de l’échantillon est inférieure à 30, la valeur de k dans les formules donnant les limites de confiance supérieure et inférieure devrait être tirée des points de pourcentage de la distribution t de Student (Voir Annexe 2) avec les degrés de liberté correspondant à la somme des carrés dans l’estimation de la variance de t. De modestes écarts de la distribution par rapport à la normale n’affectent pratiquement pas la formule relative aux limites de confiance. En revanche, si la distribution est très différente de la normale, il faut adopter des méthodes spéciales. Par exemple, si l'on utilise de petites surfaces comme unités d'échantillonnage, pour estimer le nombre moyen d’arbres à classes de diamètre élevées, la distribution peut avoir une asymétrie prononcée. Dans ce cas, la formule indiquée ci dessus pour le calcul des limites de confiance supérieure et inférieure n’est pas toujours directement applicable.

Quelques observations d’ordre général: Dans les sections qui suivent, les valeurs concernant la population seront notées par des lettres majuscules et les valeurs de l’échantillon par des lettres minuscules. Le symbole "cap" (^) au-dessus d’un symbole relatif à une valeur de la population dénote son estimation basée sur des observations de l’échantillon. Les autres notations particulières seront expliquées au fur et à mesure de leur apparition.

Les formules servant à estimer uniquement la moyenne de la population et sa variance d’échantillonnage sont données avec la description des méthodes d’échantillonnage ci-dessous. Deux des paramètres sont le total de la population et le rapport du caractère étudié (y) à une variable auxiliaire quelconque (x). Ces statistiques connexes peuvent toujours être calculées à partir de la moyenne, à l’aide des relations générales ci-après:

(5.7)

(5.8)

(5.9)

(5.10)

= Estimation du total de la population

N = Nombre total d’unités dans la population

= Estimation du rapport de la population

X = Total de la population de la variable auxiliaire

5.2. Echantillonnage aléatoire simple

Dans un échantillonnage aléatoire simple toutes les combinaisons possibles d’unités d’échantillonnage tirées de la population ont les mêmes chances d’être sélectionnées. Théoriquement, l’échantillonnage aléatoire simple est la procédure la plus simple, dont s’inspirent de nombreuses autres techniques. Elle s’applique surtout au stade initial d’une enquête et aux études impliquant l’échantillonnage d’une petite surface où la taille de l’échantillon est relativement petite. Si l’enquêteur connaît un peu la population sondée, il peut adopter d’autres méthodes plus pratiques et plus efficaces pour organiser l’enquête sur le terrain. Dans un échantillonnage aléatoire simple, la répartition irrégulière des unités d’échantillonnage sur la surface de forêt peut être un gros inconvénient dans les zones difficilement accessibles où les frais de déplacement et de localisation des parcelles sont considérablement plus élevés que les coûts de l’énumération des parcelles.

5.2.1. Sélection des unités d’échantillonnage

Dans la pratique, la sélection d’un échantillon aléatoire se fait unité par unité. Nous expliquerons dans cette section deux méthodes de sélection aléatoire pour un échantillonnage aléatoire simple sans remise.

i) Echantillonnage par tirage: Les unités de la population sont numérotées de 1 à N. Symboliquement, on peut assimiler ces unités à N boules identiques numérotées de 1 à N. Si on en sélectionne une au hasard après les avoir mélangées, toutes les boules ont la même possibilité d’être sélectionnées. Ce processus est répété n fois sans remettre en jeu les boules sélectionnées. Les unités correspondant aux numéros inscrits sur les boules sélectionnées forment un échantillon aléatoire simple de taille n tiré dans la population de N unités.

ii) Echantillonnage au moyen de tables de nombres aléatoires : la procédure d’échantillonnage par tirage devient fastidieuse si N est élevé. Pour surmonter cette difficulté, on peut utiliser une table de nombres aléatoires, du type de celles publiées par Fisher et Yates (1963) (voir Annexe 6). Les tables de nombres aléatoires ont été conçues de manière à ce que les chiffres de 0 à 9 apparaissent indépendamment les uns des autres, à peu près le même nombre de fois dans la table. La méthode la plus simple pour choisir un échantillon aléatoire de la taille requise consiste à sélectionner un ensemble de n nombres aléatoires l’un après l’autre, de 1 à N, dans la table, puis de prendre les unités correspondant à ces numéros. Cette procédure peut comporter un certain nombre de rejets du fait que tous les nombres supérieurs à N qui apparaissent dans la table sont exclus d’office. Dans ces cas là, la procédure est modifiée comme suit. Si N est un nombre à d chiffres, on commence par déterminer le plus grand multiple de N à d chiffres, noté N’. Ensuite, on choisit un nombre aléatoire r de 1 à N’ et l’unité portant le numéro égal au restant obtenu après avoir divisé r par N, est considérée comme sélectionnée. Si le reste est égal à zéro, la dernière unité est sélectionnée. Un exemple numérique est donné ci-après.

Supposons que l’on doive choisir un échantillon aléatoire simple de 5 unités dans une liste de 40 unités numérotées en série, que l’on consulte l’Annexe 6 : Table de nombres aléatoires et que l’on choisisse dans la colonne 5) des nombres à deux chiffres les nombres suivants :

39, 27, 00, 74, 07

Pour donner les mêmes probabilités de sélection aux 100 unités, il faut rejeter tous les nombres supérieurs à 79 et considérer que (00) équivaut à 80. Ensuite, on divise les nombres ci-dessus par 40, et l’on prend les restes comme numéros des bandes sélectionnées pour l’échantillon, en rejetant les restes qui sont répétés. On obtient ainsi les 16 numéros de bande comme échantillon, soit : 39, 27, 40, 34, 7.

5.2.2. Estimation de paramètres

Soient y1, y2,… ,yn les mesures d’une caractéristique spécifique, effectuées sur n unités sélectionnées d’un échantillon d’une population de N unités d’échantillonnage. On constate dans le cas d’un échantillonnage aléatoire simple sans remise que la moyenne de l’échantillon

(5.11)

est un estimateur non biaisé de la moyenne de la population. Une estimation non biaisée de la variance d’échantillonnage de est donnée par

(5.12)

(5.13)

Si l’estimation suit une loi normale, il est possible d’établir un intervalle de confiance sur la moyenne de la population , les limites de confiance inférieure et supérieure étant définies par,

Limite inférieure (5.14)

Limite supérieure (5.15)

z est la valeur de la table qui dépend du nombre d’observations incluses dans l’échantillon. Si leur nombre est égal ou supérieure à 30, on peut extraire ces valeurs de la table de la distribution normale (Annexe 1). Si le nombre d’observations est inférieur à 30, la valeur tabulaire sera extraite de la table de distribution t (Annexe 2), avec n - 1 degrés de liberté.

Nous allons illustrer ces calculs par un exemple. Supposons qu’une forêt ait été divisée en 1000 parcelles de 0,1 hectare chacune et qu’un échantillon aléatoire simple de 25 parcelles ait été selectionné. Pour chacune de ces parcelles d’échantillon, les volumes de bois, en m3, ont été enregistrés. Ces volumes étaient les suivants:

7 10 7 4 7

8 8 8 7 5

2 6 9 7 8

6 7 11 8 8

7 3 8 7 7

Si le volume de bois de la i-ème unit d’échantillonnage est noté yi, un estimateur non biaisé de la moyenne de la population, s’obtient à l’aide de l’Equation (5.11), soit :

= 7 m3

qui est le volume moyen de bois par parcelle de 0.1 ha , dans la superficie de forêt.

Une estimation () de la variance des valeurs individuelles de y s’obtient à l’aide de l’équation (5.13).

= = 3.833

L’estimation non biaisée de la variance d’échantillonnage de est donc

= 0.1495 (m3)2

0.3867 m3

L’erreur-type relative, est une expression plus commune. Ainsi,

(100) = 5.52 %

Les limites de confiance attachées à la moyenne de la population s’obtiennent par les équations (5.14) et (5.15).

Limite inférieure

= 6.20 cordes

Limite supérieure

= 7.80 cordes

L’intervalle de confiance de 95% associé à la moyenne de la population est de (6.20, 7.80) m3. Cela signifie que l’on peut estimer qu’il y a 95 chances sur cent que l’intervalle de confiance de (6.20, 7.80) m3 inclura la moyenne de la population.

On obtiendra facilement une estimation du volume total de bois dans la surface de forêt échantillonnée en multipliant l’estimation de la moyenne par le nombre total de parcelles comprises dans la population. Ainsi

avec une intervalle de confiance de (6200, 7800) obtenu en multipliant les limites de confiance associés à la moyenne par N = 1000. L’erreur-type relative RSE de , n’est cependant pas modifiée par cette opération.

5.3. Echantillonnage systématique

La méthode d’échantillonnage systématique obéit à une règle simple, dans laquelle chaque k-ième unité est sélectionnée à partir d’un nombre, de 1 à k, choisi au hasard comme point de départ aléatoire. Supposons que N unités d’échantillonnage dans la population soient numérotées de 1 à N.. Pour sélectionner un échantillon systématique de n unités, on choisit une unité au hasard parmi les k premières, puis on sélectionne chaque k-ième unité d’échantillonnage pour former l’échantillon. La constante k est appelée pas d’échantillonnage, et est considérée comme étant le nombre entier le plus proche de N / n, l’inverse du taux d’échantillonnage. La mesure de chaque k-ème arbre correspondant à un relèvement au compas déterminé est un exemple d’échantillonnage systématique. Dans les enquêtes forestières, une bande étroite, perpendiculaire à une ligne de base, traversant toute la forêt est couramment prise comme unité d’échantillonnage. Si les unités d’échantillonnage sont des bandes, le dispositif est connu sous le nom d’échantillonnage systématique en bandes, mais il existe aussi un autre système, appelé échantillonnage systématique de parcelles en ligne, dans lequel des parcelles de taille et de forme fixées sont sélectionnées à intervalles égaux le long de lignes parallèles régulièrement espacées. Dans le dernier cas, l’échantillon pourrait aussi bien être systématique dans deux directions.

Sur le plan intuitif, l’échantillonnage systématique est certainement attrayant, sans compter qu’il est plus facile à sélectionner et à effectuer sur le terrain, du fait que l’échantillon est réparti également sur toute la superficie de forêt et qu’il garantit une certaine quantité de représentation des différentes parties de la surface. Ce type d’échantillonnage est souvent pratique pour contrôler les travaux de terrain. A part ces considérations opérationnelles, il est démontré que la procédure de l’échantillonnage systématique fournit des estimateurs plus efficaces que l’échantillonnage aléatoire simple, dans des conditions sylvicoles normales. La propriété de l’échantillonnage systématique, à savoir la répartition uniforme des unités d’échantillonnage sur la population peut être exploitée en recensant les unités de manière à regrouper les unités homogènes ou de manière à ce que les valeurs de la caractéristique relative aux unités soient rangées par ordre croissant ou décroissant. Par exemple, si l’on connaît la tendance de fertilité de la surface de forêt, les unités (par exemple, les bandes) peuvent être recensées conformément à cette tendance.

Si la population affiche un régime de variation régulier et si l’intervalle d’échantillonnage de l’échantillon systématique coïncide avec cette régularité, l’échantillon systématique ne donne pas d’estimations précises. Il est vrai qu’aucun cas évident de périodicité n’a jamais été signalé dans une étendue forestière. Il faut néanmoins tenir compte, lorsque l’on planifie une enquête, du fait qu’un échantillonnage systématique peut donner des résultats peu précis, au cas où une périodicité insoupçonnée se vérifierait.

5.3.1. Sélection d’un échantillon systématique

Pour illustrer la sélection d’un échantillon systématique, prenons une population de N = 48 unités. Un échantillon de n = 4 unités est nécessaire. Dans ce cas, k = 12. Si le nombre aléatoire choisi dans l’ensemble de nombres allant de 1 à 12 est 11, les unités correspondant aux numéros de série 11, 23, 35 et 47 seront sélectionnées. Dans les cas où N n’est pas divisible par n, k est le nombre entier le plus proche de N / n. Dans ce cas, la taille de l’échantillon n’est pas nécessairement égale à n et elle peut être égale à n -1.

5.3.2. Estimation des paramètres

L’estimation de la moyenne de la population de chaque unité est donnée par la moyenne de l’échantillon

(5.16)

n est le nombre d’unités dans l’échantillon.

Dans le cas d’enquêtes par échantillonnage systématique en bandes ou, d’une manière générale, dans tout système d’échantillonnage systématique unidimensionnel, on peut obtenir une approximation de l’erreur-type à partir des différences entre deux unités qui se suivent. Supposons que n unités aient été énumérées dans l’échantillon systématique, on aura (n-1) différences. La variance par unité est donc donnée par la somme des carrés des différences divisée par le double du nombre de différences. Ainsi, si y1, y2,…,yn sont les valeurs observées (par exemple, le volume) des n unités dans l’échantillon systématique, et en définissant la première différence d(yi) comme indiqué ci-dessous

; (i = 1, 2, …, n -1), (5.17)

la variance approximative par unité est estimée par la formule

(5.18)

A titre d’exemple, le Tableau 5.1. donne les diamètres observés de 10 arbres sélectionnés par prélèvement systématique d’un arbre sur 20 dans un peuplement contenant 195 arbres disposés par rangées de 15. Le premier élément sélectionné était le huitième arbre de l’un des cotés extérieurs du peuplement, en partant d’un coin. Les autres arbres ont été sélectionnés systématiquement, en prenant chaque 20ème arbre, puis en passant à l’arbre le plus proche de la rangée suivante après le dernier arbre de chaque rangée.

Tableau 5.1. Diamètre des arbres observé sur un échantillon systématique de 10 arbres prélevés dans une parcelle.

Numéro de l’arbre sélectionné

Diamètre à hauteur d’homme (en cm)

yi

Première différence

d(yi)

8

14.8

 

28

12.0

-2.8

48

13.6

+1.6

68

14.2

+0.6

88

11.8

-2.4

108

14.1

+2.3

128

11.6

-2.5

148

9.0

-2.6

168

10.1

+1.1

188

9.5

-0.6

Le diamètre moyen est égal à

Les neuf premières différences s’obtiennent avec la formule indiquée dans la colonne (3) du Tableau 5.1. La variance des écarts de la moyenne par unité est donc

= 0.202167

L’un des inconvénients est qu’un échantillon systématique ne permet pas en lui-même d’obtenir une évaluation valide de la précision des estimations. Pour en avoir, on peut avoir recours à des échantillons partiellement systématiques. Il existe une méthode théoriquement valable qui fait appel au concept d’échantillon systématique tout en aboutissant à des estimations non biaisées de l’erreur d’échantillonnage; celle-ci consiste à prélever au moins deux échantillons systématiques, avec des points de départ aléatoires indépendants. Si , , …, sont m estimations de la moyenne de la population basées sur m échantillons systématiques indépendants, l’estimation combinée est

(5.19)

L’estimation de la variance de est donnée par la relation

(5.20)

Remarquons que la précision augmente avec le nombre d’échantillons systématiques indépendants.

A titre d’exemple, prenons les données du Tableau 5.1, ainsi qu’un autre échantillon systématique sélectionné avec des points de départ aléatoires indépendants. Dans le deuxième échantillon, le premier élément sélectionné était le 10ème arbre. Les données concernant les deux échantillons indépendants sont reportées dans le Tableau 5.2.

Tableau 5.2. Diamètre des arbres observé sur deux échantillons systématiques indépendants de 10 arbres issus d’une parcelle.

Echantillon 1

Echantillon 2

Numéro de l’arbre sélectionné

Diamètre à hauteur de poitrine (en cm)

yi

Numéro de l’arbre sélectionné

Diamètre à hauteur de poitrine (en cm)

yi

8

14.8

10

13.6

28

12.0

30

10.0

48

13.6

50

14.8

68

14.2

70

14.2

88

11.8

90

13.8

108

14.1

110

14.5

128

11.6

130

12.0

148

9.0

150

10.0

168

10.1

170

10.5

188

9.5

190

8.5

Le diamètre moyen du premier échantillon, . Le diamètre moyen du deuxième échantillon, . L’estimation combinée de la moyenne de la population () se calcule à l’aide de l’équation (5.19),

= 12.13

L’estimation de la variance de s’obtient à l’aide de l’équation (5.20).

= 0.0036

= 0.06

Il existe une autre variante de l’échantillonnage systématique, dans le cas d’un échantillonnage systématique dans deux directions. Par exemple, si, dans des plantations, on veut estimer le volume du peuplement, on peut adopter un échantillon systématique de rangées et prendre, dans chaque rangée sélectionnée, des mesures sur le dixième arbre. Dans une enquête forestière, on peut prendre une série de bandes parallèles équidistantes s’étendant sur toute la largeur de la forêt, et, dans chaque bande, on peut procéder à l’énumération en prélevant un échantillon systématique de parcelles ou d’arbres. Une autre méthode serait de former des grilles rectangulaires de (p x q) mètres et de sélectionner un échantillon systématique de lignes et de colonnes, avec une parcelle d’une taille déterminée et de la forme prescrite à chaque intersection.

Dans le cas d’un échantillon systématique bidimensionnel, on peut obtenir les estimations et une approximation de l’erreur d’échantillonnage, grâce à une méthode basée sur la stratification. Celle-ci est similaire à la méthode d’échantillonnage stratifié décrite dans la section 5.4. Par exemple, l’échantillon peut être arbitrairement divisé en ensembles de 4 dans 2 x 2 unités, chaque ensemble étant considéré comme formant une strate. On suppose en outre que les observations faites à l’intérieur de chaque strate sont sélectionnées de manière indépendante et aléatoire. Pour ajuster les bords, les strates qui se chevauchent seront prises en bordure de la zone forestière.

 

5.4. Echantillonnage stratifié

L’idée de base de l’échantillonnage aléatoire stratifié est de diviser une population hétérogène en sous-populations, habituellement appelées strates, constituées d’éléments homogènes; on pourra ainsi obtenir une estimation précise d’une moyenne de strate quelconque à partir d’un petit échantillon prélevé dans cette strate, ainsi qu’une estimation précise pour l’ensemble de la population, en combinant ces estimations. L’échantillonnage stratifié donne une meilleure section transversale de la population que la procédure d’échantillonnage aléatoire simple. Cette méthode peut aussi simplifier l’organisation des activités en champ. La proximité géographique est parfois l’élément de base de la stratification, car on part du principe que des zones contiguës sont souvent plus semblables que des zones très éloignées. L’élément de base de la stratification peut aussi être dicté par des considérations d’ordre administratif. Par exemple, le personnel déjà disponible dans chaque brigade d’une division forestière peut être chargé de superviser l’enquête dans la zone relevant de sa compétence. Ainsi, des régions géographiques compactes peuvent former les strates. Une méthode de stratification assez efficace consiste à effectuer une enquête préliminaire rapide de la zone ou à rassembler l’information déjà disponible et à stratifier la surface de forêt suivant les types de forêts, la densité des peuplements, la qualité de la station etc... Si l’on sait que la caractéristique à l’étude est influencée par une variable supplémentaire au sujet de laquelle on dispose de données réelles, ou au moins de bonnes estimations concernant les unités de la population, la stratification peut être faite en utilisant les informations sur cette variable supplémentaire. Par exemple, la population peut être stratifiée sur la base des estimations de volume obtenues lors d’un inventaire antérieur de la superficie forestière.

Dans l’échantillonnage stratifié, la variance de l’estimateur ne comprend que la variation à l’intérieur des strates. Ainsi, en général le degré de précision augmente avec le nombre de strates de la population, car plus elles sont nombreuses, plus les unités qu’elles contiennent sont homogènes. Pour estimer la variance à l’intérieur des strates, chaque strate devrait avoir au minimum deux unités. Plus le nombre de strates est élevé, plus le coût de du recensement est élevé. Ainsi, le nombre de strates devra être déterminé, et la décision dépendra de considérations de commodité administrative, du coût de l’enquête et de la variabilité de la caractéristique à l’étude dans la zone.

5.4.1. Allocation et sélection de l’échantillon à l’intérieur des strates

Supposons que la population soit divisée en k strates de N1, N2 ,…, Nk unités respectivement, et qu’un échantillon de n unités doive être prélevé de la population. Pour l’allocation, le problème est de choisir les tailles d’échantillon dans les strates respectives, c’est-à-dire de déterminer le nombre d’unités qui devraient être prélevées de chaque strate, pour que la taille de l’échantillon total soit égale à n.

Tous les choix étant équivalents, il est possible de prélever un plus grand échantillon d’une strate qui a une variance plus grande, de sorte que la variance des estimations des moyennes des strates se trouve réduite. L’application du principe ci-dessus nécessite des estimations préalables de la variation à l’intérieur de chaque strate. Celles-ci peuvent avoir été acquises lors d’une enquête antérieure ou provenir d’enquêtes pilotes de nature restreinte. Ainsi, si ces informations sont disponibles, la fraction sondée dans chaque strate peut être considérée comme proportionnelle à l’écart-type de chaque strate.

Si le coût par unité de l’enquête dans chaque strate est connu et varie d’une strate à l’autre, une méthode d’allocation efficace, pour un coût minimum, consiste à prélever de grands échantillons dans la strate où l’échantillonnage coûte le moins cher et où la variabilité est la plus élevée. Pour appliquer cette procédure, il faut des renseignements sur la variabilité et le coût des observations pour chaque unité dans les différentes strates.

A défaut d’informations sur les variances relatives à l’intérieur des strates et sur le coût des opérations, la partie de l’échantillon attribuée aux différentes strates peut être proportionnelle au nombre d’unités qu’elles contiennent ou à la surface totale de chaque strate. Cette méthode est habituellement appelée "répartition proportionnelle de l’échantillon".

Pour la sélection des unités dans les strates, d’une manière générale, on peut adopter n’importe quelle méthode basée sur une sélection probabiliste d’unités. Toutefois, la sélection doit être indépendante dans chaque strate. Si des échantillons aléatoires indépendants sont prélevés dans chaque strate, la procédure d’échantillonnage prend le nom d’"échantillonnage aléatoire stratifié". D’autres modes de sélection de l’échantillon, comme l’échantillonnage systématique, peuvent aussi être adoptés à l’intérieur des différentes strates.

5.4.2. Estimation de la moyenne et de la variance

Nous supposerons que la population de N unités est d’abord divisée en k strates contenant respectivement N1, N2,…,Nk unités. Ces strates ne se chevauchent pas et à elles toutes, elles forment l’ensemble de la population, de sorte que

N1 + N2 + ….. + Nk = N. (5.21)

Lorsque les strates ont été définies, un échantillon est prélevé dans chacune d’elles, la sélection se faisant indépendamment dans chaque strate. Les tailles des échantillons à l’intérieur des strates sont respectivement notées n1, n2, …, nk . On a donc,

n1 + n2 +…..+ n3 = n (5.22)

Soit ytj (j = 1, 2,…., Nt ; t = 1, 2,..…k) la valeur de la caractéristique étudiée sur la j-ème unité dans la t-ième strate. Dans ce cas, la moyenne de la population dans la t-ième strate est donnée par la relation

(5.23)

La moyenne de l’ensemble de la population est donnée par

(5.24)

Dans ce cas, une estimation de la moyenne de la population sera donnée par la formule

(5.25)

(5.26)

L’estimation de la variance de est donnée par

(5.27)

(5.28)

Si elle est effectuée comme on l’a expliqué dans les sections précédentes, la stratification donne ordinairement une variance plus faible pour le total ou la moyenne de la population estimée qu’un échantillon aléatoire simple de la même taille. Toutefois, si l’échantillon stratifié est prélevé sans les précautions voulues, les résultats ne seront pas meilleurs qu’avec un échantillon aléatoire simple.

Nous allons maintenant illustrer par un exemple numérique les calculs de l’estimation du volume moyen par hectare d’une espèce particulière et de son erreur-type, à partir d’un échantillon aléatoire stratifié de compartiments sélectionnés de manière indépendante, avec des probabilités égales dans chaque strate.

Une étendue forestière, constituée de 69 compartiments a été divisée en trois strates contenant respectivement les compartiments 1 à 29, 30 à 45 et 46 à 69; on a ensuite choisi au hasard 10, 5 et 8 compartiments dans les trois strates. Les numéros de série des compartiments sélectionnés dans chaque strate sont indiqués dans la colonne (4) du Tableau 5.3. Le volume observé correspondant de l’espèce particulière dans chaque compartiment sélectionné est donné, en m3/ha, dans la colonne (5).

 

Previous PageTop Of PageNext Page