Previous PageTable Of ContentsNext Page

Chapitre 3.
La conception du plan d'échantillonnage

Les études de consommation, offre et approvisionnement en dendrocombustibles sont réalisées fondamentalement grâce à des techniques d'échantillonnage. Ceci signifie que, grâce à l'étude d'un petit groupe (échantillon) choisi de manière aléatoire, on obtient des données sur les variables souhaitées d'un groupe de dimensions plus grandes (univers6), à la suite de quoi on peut raisonner par inférence sur le comportement de ces variables dans l'univers. On procède ainsi compte tenu que des études qui porteraient sur tout l'univers - sauf dans le cas d'univers très petits - entraîneraient des frais très élevés.

3.1 L'univers

Il faut définir l'univers en fonction des objectifs de l'étude. On peut le définir en termes géographiques (une localité, une municipalité, un district, une province, un pays ou toute autre catégorie intermédiaire) ou en termes sectoriels (une population urbaine, les industries de la céramique, les producteurs de bois de feu). On doit également poser des limites temporelles à la définition de l'univers parce que sa composition et ses caractéristiques peuvent changer au fil du temps. Il est recommandé que l'univers ait des limites spatiales qui coïncident avec les regroupements normalisés, d'usage courant ou officiels dans chaque pays (politiques, administratifs, naturels, etc.), pour qu'il soit possible d'estimer ses dimensions à partir de bases d'information déjà existantes.

On définit de manière préliminaire l'univers au début de la conception méthodologique d'une étude, pour ensuite le préciser une fois qu'on connaît sa taille et sa distribution spatiale et temporelle, en révisant des informations existantes. La redéfinition de l'univers peut supposer de l'élargir ou bien de le réduire. On élargit l'univers quand il s'avère qu'il existe une zone où il est fait un usage important de dendrocombustibles ou dans le cas où il existe une offre réelle ou potentielle de dendrocombustibles. On peut éliminer des zones de l'univers à cause d'un manque d'information sur la demande ou l'offre tel que leur prise en compte dans l'étude induise une erreur plus grande que leur suppression d'une part et, d'autre part, parce qu'il est reconnu qu'une localité ou une zone ne font pas partie de l'univers du fait qu'elles ne comptent pas d'utilisateurs importants.

3.2 Le cadre d'échantillonnage

Une fois l'univers défini, on doit obtenir une information aussi précise que possible sur ses dimensions et sa distribution spatiale et temporelle, pour construire à partir de ces éléments le cadre d'échantillonnage, qui est la base du plan d'échantillonnage. Le cadre d'échantillonnage est l'information qui situe et dimensionne l'univers et qui peut consister en recensements d'habitations et en cartes suivant des regroupements par localités, quartiers, circonscriptions, etc. ; en cartes de couverts forestiers avec des regroupements par type de végétation ou d'utilisation du sol ; des listes d'habitations dans les petites localités, etc. La construction du cadre d'échantillonnage est examinée en détail dans les parties traitant des variables générales en matière de demande, offre et approvisionnement (chapitre 2).

3.3 L'unité d'échantillonnage

Une des notions élémentaires de la théorie de l'échantillonnage, qu'il faut définir clairement pour construire le cadre d'échantillonnage, est l'unité d'échantillonnage, à savoir l'unité minimale d'observation à partir de laquelle on obtiendra de l'information sur les variables utiles. Par convention, on emploiera en statistique le symbole "N" pour désigner le nombre d'unités d'échantillonnage qui intègrent l'Univers et "n" pour désigner le nombre d'unités d'échantillonnage dans l'échantillon considéré. Sur le tableau 3.1 figure, pour chaque secteur, l'unité d'échantillonnage la plus pertinente. On pourrait définir d'autres unités d'échantillonnage en fonction des objectifs de chaque étude.

Tableau 3.1 Unité d'échantillonnage selon le groupe thématique et le secteur ou la branche étudiés.

Après avoir défini l'univers et l'unité d'échantillonnage, et une fois qu'on dispose d'un cadre d'échantillonnage, la conception du plan d'échantillonnage consiste en deux grandes étapes : la définition du type d'échantillonnage et la détermination de la taille de l'échantillon.

3.4 Les types d'échantillonnage

Il existe différents types d'échantillonnage, mais tous sont fondés sur le principe aléatoire. Pour pouvoir procéder à des inférences pertinentes sur ce qui se passe dans un univers à partir d'un échantillon, il est nécessaire que celui-ci en soit représentatif, ce qui est rendu possible par le principe aléatoire pourvu que la taille de l'échantillon soit suffisamment grande.

Échantillonnage aléatoire simple

Univers

• 70 briqueteries dans une ville

• Elles sont toutes petites, leur production est comprise entre 30 000 et 60 000 briques par an

Cadre d'échantillonnage

• Registre d'industrie du Bureau municipal de recouvrement des impôts

Unité d'échantillonnage

• Établissement

Sélection aléatoire

• Après avoir numéroté les établissements, on choisit au hasard, par tirage au sort ou en attribuant des numéros aléatoires, "n" établissements à sonder

La base de l'inférence statistique est le caractère aléatoire. Cela signifie que tous les éléments de l'univers ont la même chance d'être retenus pour composer l'échantillon. Si on ne les choisissait pas de manière aléatoire, on courrait le grave risque d'obtenir des résultats représentatifs NON de l'ensemble de la population, mais seulement d'une partie de celle-ci. C'est ce qu'on appelle un facteur de décalage, ou biais. Un exemple de biais par choix NON aléatoire dans un inventaire de ressources de bois-énergie serait de choisir des parcelles proches des voies d'accès, sachant que, du fait de cette proximité, elles sont très probablement les plus exploitées et celles qui ont le moins de bois sur pied. Ainsi, en extrapolant à l'univers à partir des résultats de cet échantillonnage non aléatoire, on aboutirait à une sous-estimation du matériel ligneux sur pied.

La taille de l'échantillon dépend de la variabilité du phénomène à étudier, du niveau de confiance fixé et de la marge d'erreur admissible. Une erreur très courante est d'affirmer que, pour qu'un échantillon soit représentatif d'un univers, il doit être d'une taille directement proportionnelle à celle de cet univers, c'est-à-dire que plus un univers est grand, plus l'échantillon doit être grand. On verra plus en détail plus loin comment obtenir la taille d'un échantillon.

3.4.1 L'échantillonnage aléatoire simple

Cette méthode consiste à choisir de manière aléatoire "n" unités d'échantillonnage (UE) de l'univers. Le processus doit offrir la même chance de sélection à toutes les UE en une seule occasion.

On assigne un numéro à chaque UE et on choisit l'échantillon de manière aléatoire à l'aide de tableaux de nombres aléatoires, avec une calculatrice, en tirant au sort, etc. Cette technique ne peut s'appliquer que quand on dispose d'un cadre d'échantillonnage complet, qui comprenne toutes les UE et quand celles-ci peuvent être reconnues et identifiées sans peine sur le terrain. Ce peut être, par exemple, un annuaire téléphonique ou une liste de domiciles avec l'identification de la rue et du numéro ou du nom de l'occupant de chaque habitation. Dans le cas de l'échantillonnage de ressources naturelles, il est généralement difficile d'identifier ou de situer avec précision les parcelles tirées au sort. Il est en effet nécessaire de disposer d'une carte détaillée et d'instruments de localisation géographique suffisamment précis.

Quand doit-on opter pour l'échantillonnage aléatoire simple ?

• Quand on sait que la variable étudiée est distribuée de manière aléatoire dans l'univers.

• Pour des univers de petite taille (ne dépassant pas 200 UE).

• Pour des univers présentant une faible dispersion géographique.

• Quand on ne connaît pas le modèle de distribution pour la variable étudiée.

3.4.2 L'échantillonnage aléatoire stratifié

Ce type d'échantillonnage est employé quand l'univers original, de taille N, est fragmenté en strates relativement homogènes quant à la variable étudiée. Cette méthode est conseillée dès lors que la variation entre strates est supérieure à la variation interne de chaque strate.

On traite chacune de ces strates indépendamment comme un univers, s'agissant de la méthode de sélection des UE et de l'estimation des paramètres. À l'intérieur de chaque strate, on peut sélectionner les UE de manière aléatoire, en grappes ou de façon systématique.

L'échantillonnage stratifié permet d'améliorer la précision des estimations avec un moindre travail d'échantillonnage, de caractériser chaque strate séparément et de faciliter la coordination du travail de terrain.

Il est très important d'avoir à l'esprit que les unités d'échantillonnage doivent appartenir à une seule strate, que les strates doivent être reconnaissables en-dehors du groupe qui a réalisé l'étude et qu'il faut connaître la taille de la strate. Il n'est pas recommandé de former beaucoup de strates, car cela compliquerait inutilement l'étude sur le terrain et l'analyse des données.

Il existe des critères généraux pour décider s'il convient de faire un échantillonnage stratifié. Dans le groupe de la demande de dendrocombustibles, la saturation et la consommation sont les variables qui doivent déterminer, au premier chef, s'il est opportun de stratifier. Dans le groupe de l'offre directe, la stratification se fait par type de source, de couverture ou d'utilisation du sol. Pour le groupe de l'offre indirecte (fournisseurs, producteurs, transporteurs et distributeurs), on a recours au volume de production ou d'échanges. Étant donné qu'il s'agit de variables qu'il faut connaître avant de procéder à l'étude, il est possible d'obtenir des données les concernant à partir de sources secondaires ou de variables indicatrices, comme on l'a vu plus en détail au chapitre 2.

Quand doit-on opter pour l'échantillonnage stratifié ?

• On l'emploie principalement dans des populations où on suppose ou on sait que la distribution de la variable ou des variables d'intérêt est différente selon des sous-populations facilement identifiables.

• Du fait de sa médiocre efficacité d'échantillonnage, il n'est PAS recommandé de l'appliquer dans de petits univers, de moins de 200 UE et avec des variables de distribution normale.

Échantillonnage en grappes

Univers

• Localité de 650 habitations dispersées sur une zone étendue et avec un tracé des rues régulier

Grappes

• Pâtés (blocs) de maisons

Cadre d'échantillonnage

• Nombre total d'habitations dans la localité

• Croquis de la localité avec le tracé actualisé des rues et une estimation de la moyenne du nombre d'habitations par bloc

Unité d'échantillonnage

• Habitations

Sélection aléatoire

• On numérote les blocs et on en choisit au hasard, puis on se rend chez tous les habitants de chaque bloc retenu

3.4.3 L'échantillonnage en grappes (ou par conglomérats)

Une grappe (ou conglomérat) est un ensemble spatialement compact d'UE.

Les grappes sont sélectionnées aléatoirement et on étudie, à l'intérieur de chacune d'entre elles toutes les UE ou on en fait un échantillonnage.

Quand doit-on opter pour l'échantillonnage en grappes ?

• On l'applique quand il est très difficile d'atteindre toutes les UE de l'univers du fait d'une grande dispersion spatiale ou d'obstacles physiques en empêchant l'accès.

3.4.4 Sélection systématique

Il ne s'agit pas à proprement parler d'un type d'échantillonnage et il convient de le considérer comme un schéma de sélection régulière d'échantillon.

Sélection systématique

Univers

• Ville de 3 000 habitations distribuées spatialement de manière compacte

Cadre d'échantillonnage

• Croquis des rues de la ville

• Nombre total d'habitations (actualisé)

Unité d'échantillonnage

• Habitation

Sélection systématique

• On détermine l'intervalle de visite des habitations en divisant le nombre total d'habitations par le nombre d'habitations à échantillonner

• On choisit la première habitation au hasard et on visite les autres selon l'intervalle calculé

La sélection de la première UE est aléatoire et les suivantes sont choisies avec un intervalle régulier d'UE, de distance ou de temps. Elle a une limitation théorique : seul le premier numéro est sélectionné au hasard, les autres n'ayant pas la même probabilité de faire partie de l'échantillon. Son avantage réside dans le fait qu'elle facilite la localisation d'UE dans des endroits où elles sont difficiles d'accès et en ceci qu'elle permet de visiter des UE qui ne sont pas définies dans le cadre d'échantillonnage.

Quand doit-on opter pour la sélection systématique ?

• Quand on n'a pas la possibilité d'identifier dans le cadre d'échantillonnage chacune des UE. Par exemple, dans les grandes villes où n'existent pas de registres recensant les habitations.

• Quand l'accès aux UE est rendu difficile par la distance, l'absence de voies de communication ou le caractère abrupt du relief. Par exemple, dans un inventaire forestier.

En cas de panachage de différents types d'échantillonnages.

Dans une même étude ou diagnostic, il est possible de combiner différents types d'échantillonnage, selon les caractéristiques des secteurs ou branches considérés et le degré de compromis admis entre précision et coût de réalisation de l'étude. Par exemple, dans le secteur domestique, on peut opter pour un échantillonnage stratifié en deux étapes par grappes, alors que, pour une branche industrielle qui est petite, homogène et compacte, on penchera plutôt pour un échantillonnage aléatoire simple.

3.5 La taille de l'échantillon

La taille de l'échantillon doit être définie indépendamment pour chaque univers, en fonction de trois facteurs : la variabilité de la variable numérique la plus importante, le niveau de confiance fixé et le niveau d'erreur acceptable, ce que résume la formule7 suivante :

où :

no = taille de l'échantillon

s2 = variance de l'échantillon

t2, v = valeur critique de la distribution t de Student, avec un niveau de significativité _ et _ degrés de
liberté

e = erreur acceptable

cv = coefficient de variation = écart type de l'échantillon par rapport à la moyenne de l'échantillon

v = degré de liberté = n - 1

La variance (s2) ou le coefficient de variation (cv) indiquent le degré d'hétérogénéité ou d'homogénéité de la variable étudiée dans l'échantillon. On les calcule - manuellement, à l'aide d'une calculatrice ou avec Excel - à partir des données d'un échantillon préliminaire ou d'une étude antérieure.

La notion d'erreur acceptable (e) renvoie à la différence qui est permise entre la moyenne de l'échantillon et la moyenne de l'univers. On la fixe en fonction de la connaissance préalable qu'on a du phénomène et il est conseillé qu'elle se situe entre 10 et 20 pour cent, ce qu'on peut également exprimer en valeurs absolues avec les unités de mesure de la variable en question.

La valeur critique de t est obtenue à partir de tableaux dans des classeurs de statistique d'Excel, où on définit d'abord le niveau de significativité () ou son complément, le niveau de confiance (1- ). Pour ce type d'études, un niveau de confiance de 0,95, équivalant à _ = 0,05 est suffisant. En outre, on doit fixer préalablement un nombre de cas de l'échantillon (n) pour définir les degrés de liberté (v = n-1). Ces deux valeurs sont les données d'entrée des tableaux de t. Ensuite, au moyen d'un processus itératif, où la valeur de n obtenue avec la Formule 1 est employée pour trouver la valeur de t, on précise la taille de l'échantillon.

Dans cette formule, on observe que le nombre d'éléments qui composent l'échantillon est directement proportionnel à la variance et au carré de t et inversement proportionnel au carré de l'erreur. La taille de l'échantillon est grande quand : a) le phénomène étudié est très variable (variance ou coefficient de variation élevé) ; b) le niveau de confiance fixé est élevé et/ou c) l'erreur acceptable est faible. En revanche, la taille de l'échantillon sera petite si on trouve un phénomène peu variable, qu'on fixe un niveau de confiance faible et qu'on accepte un niveau d'erreur élevé.

On a ainsi démontré que la taille d'un échantillon ne dépend PAS de la taille de l'univers. Ainsi, par exemple, en partant de niveaux identiques de confiance et d'erreur acceptée, dans une forêt tropicale humide de même superficie qu'une forêt tempérée de pins, la taille de l'échantillon sera plus grande dans le premier cas car il est notoire que l'hétérogénéité est plus grande pour la variable "bois sur pied" dans ce cas que dans celui de la forêt de pins.

Jusqu'à présent, on n'a pas tenu compte de la taille de l'univers pour déterminer la taille de l'échantillon. Pourtant, pour de petits univers, inférieurs à 120 UE, il est nécessaire de corriger la valeur de no obtenue par la Formule 1, en ayant recours à la formule8 suivante :

où :

no = taille de l'échantillon obtenue dans la formule précédente

N = taille de l'univers

n = taille définitive de l'échantillon

Dans l'annexe III est présenté un tableau de calcul de la taille d'échantillon dans le secteur domestique, corrigée pour population finie, pour la variable consommation spécifique de bois de feu, dont on connaît, un grand nombre d'études de cas à l'appui, le coefficient de variation.

Les variables utiles pour calculer la taille de l'échantillon

• Pour la définition de la taille d'échantillon de n'importe quel secteur ou branche de la demande de dendrocombustibles, il est recommandé d'utiliser la variable consommation unitaire.

• Dans les secteurs industriel, commercial et institutionnel, il n'est pas toujours possible d'avoir des données sur la consommation unitaire. C'est pourquoi on peut utiliser le volume de production par unité de temps, qui est étroitement lié à la consommation unitaire.

• Pour l'offre directe (forêts, plantations, etc.), les variables pertinentes peuvent être le matériel sur pied ou la productivité, mais on recommande d'utiliser la première, qui apporte davantage d'information secondaire et qui est plus facile à mesurer dans un échantillonnage préliminaire. S'il n'y a pas de données sur le bois sur pied, on peut avoir recours à la surface terrière (G).

• Dans les secteurs ou branches d'offre indirecte, (scieries, menuiseries, etc.), on doit employer le volume de production par unité de temps.

• Dans les secteurs de l'approvisionnement, il convient d'avoir recours au volume de production de combustibles ligneux avec les producteurs, au volume de vente avec les distributeurs et à la capacité de transport avec les transporteurs, toutes variables exprimées en unités de temps.

La décision finale quant à la taille de l'échantillon dépendra du compromis qui sera trouvé entre la précision de l'estimation escomptée et la disponibilité des ressources (ressources financières et humaines et temps à disposition) pour réaliser l'étude sur le terrain. Il est recommandé que les secteurs ou branches de plus grande importance en matière de demande, d'offre et d'approvisionnement en combustibles ligneux soient privilégiés à l'heure d'affecter des ressources pour l'étude de terrain, afin d'obtenir une plus grande précision dans l'estimation. Dans les situations où il n'est pas possible de couvrir la taille de l'échantillon découlant du calcul statistique, il faudra obligatoirement étudier un minimum de 10 unités d'échantillonnage par secteur, branche ou strate, et inscrire dans le rapport du diagnostic l'erreur d'estimation en dégageant e de la Formule 1.

6 L'"univers" est aussi appelé "population" en statistique.

7 Formule employée pour déterminer la taille d'échantillon nécessaire pour estimer la moyenne d'une population, étant donné que, en matière de vérification d'hypothèse, il existe pour les différences entre les moyennes et les variances d'autres formules. Il est recommandé de se reporter à titre de référence à certains ouvrages de statistique, comme Zar, 1999, Cochran, 1977, et Steel et Torrie, 1988.

8 Appelée "correction (d'échantillonnage) pour population finie".

Previous PageTable Of ContentsNext Page