CAPITULO 3 DISEÑO DE MUESTREO

Los estudios de consumo, oferta y abastecimiento de dendrocombustibles se realizan fundamentalmente utilizando técnicas de muestreo. Esto significa que a través del estudio de un pequeño grupo (muestra) elegido aleatoriamente, se obtienen datos de las variables de interés de un grupo de mayor tamaño (universo6), para después inferir sobre el comportamiento de esas variables en el universo. Esto es así porque hacer estos estudios en todo el universo, con excepción de aquéllos muy pequeños, tiene altos costos.

3.1 Universo

El universo debe ser definido desde los objetivos del estudio y puede serlo en términos geográficos (una localidad, un municipio, un distrito, una provincia, un país o cualquier otra categoría intermedia) o en términos sectoriales (la población urbana, las industrias de cerámica, los productores de leña). También se debe dar límites temporales a la definición del universo, porque su composición y características pueden cambiar con el correr del tiempo. Se recomienda que el universo tenga límites espaciales coincidentes con las agrupaciones estándares, de uso común, u oficiales de cada país (políticas, administrativas, naturales, etc.), para que sea posible estimar sus dimensiones a partir de bases de información ya existentes.

El universo se define en forma preliminar al inicio del diseño metodológico de un estudio, para después precisarlo al conocer su tamaño y distribución espacial y temporal, a través de la revisión de informaciones existentes. La redefinición del universo puede significar ampliarlo o reducirlo. El primer caso puede ocurrir cuando se reconoce que existe un área con uso importante de dendrocombustibles o donde hay oferta real o potencial de ellos. La eliminación de áreas del universo puede deberse, por una parte, a que sea tal la carencia de información sobre la demanda o la oferta, que su incorporación al estudio lleve a un error mayor que su eliminación; y por otra, a que se reconozca que alguna localidad o área no forman parte del universo por no contar con usuarios de importancia.

3.2 Marco muestral

Una vez definido el universo, se debe recabar información, lo más exacta posible, de sus dimensiones y distribución espacial y temporal, para con ello poder construir el marco muestral, que es la base para hacer el diseño de muestreo. El marco muestral es la información que ubica y dimensiona al universo y puede consistir de censos de vivienda y mapas agrupados por localidades, barrios, repartos, etc.; mapas de cobertura forestal con agrupamientos por tipos de vegetación o usos del suelo; listados de viviendas en localidades pequeñas, etc. La construcción del marco muestral se detalla en los apartados referentes a las variables generales de la demanda, oferta y abastecimiento (Capítulo 2).

3.3 Unidad de muestreo

Un concepto básico en la teoría del muestreo, que debe definirse claramente para construir el marco muestral, es la unidad de muestreo, que es la unidad mínima de observación de la que se obtendrá información de las variables útiles. Por convención estadística, se usará "N" para referirnos al número de unidades de muestreo que integran el Universo y "n" para el número de unidades de muestreo en la muestra. Para cada sector la unidad de muestreo más conveniente se indica en la Tabla 3.1. Otras unidades de muestreo pueden ser definidas de acuerdo a los objetivos de los estudios.

Tabla 3.1 Unidad de muestreo según el grupo temático y sector o ramo de estudio.

Grupo	Sector o ramo	Unidad de muestreo
Demanda	Residencial - urbana - rural	Vivienda
	Industrial	Establecimiento
	Comercial
	Institucional
Oferta	Directa	Parcela
Oferta	Indirecta	Establecimiento
Abastecimiento	Productores	Productores individuales, empresas
	Transportistas
	Comercializadores

Después de haber definido el universo y la unidad muestral, y de contar con un marco muestral, el diseño del muestreo consiste de dos grandes etapas: definición del tipo de muestreo y determinación del tamaño de muestra.

3.4 Tipos de muestreo

Existen diferentes tipos de muestreo, pero todos se basan en el principio de aleatoriedad. Para poder hacer inferencias válidas de lo que ocurre en un universo a partir de una muestra es necesario que ésta sea representativa de él, lo cual se logra con la aleatoriedad y con un tamaño suficiente de la muestra.

La base de la inferencia estadística es la aleatoriedad. Esto significa que todos los elementos del universo tengan la misma oportunidad de ser elegidos para componer la muestra. Si no se los eligiera aleatoriamente se corre el grave riesgo de tener resultados NO representativos de toda la población, sino de un sector de ella. A esto se le llama sesgo. Un ejemplo de sesgo por elección NO aleatoria en un inventario de recursos leñeros, es elegir las parcelas cercanas a las vías de acceso. Por esa condición, es muy probable que sean las más explotadas y que tengan menores existencias de madera. Así, hacer la extrapolación al Universo de los resultados de esta muestra NO aleatoria, llevaría a una subestimación de las existencias.

El tamaño de la muestra es dependiente de la variabilidad del fenómeno a estudiar, del nivel de confianza fijado y del error admisible. Un error muy común es la afirmación de que, para que una muestra sea representativa de un Universo, debe ser de un tamaño directamente proporcional a su tamaño, es decir, que a mayor tamaño del Universo debería ser mayor el tamaño de la muestra. Adelante se detallará la forma de obtener el tamaño de muestra.

3.4.1 Muestreo aleatorio simple

Consiste en elegir en forma aleatoria "n" unidades muestrales (UM) del universo. El proceso debe otorgar la misma oportunidad de selección a todas las UM en una sola ocasión.

Se asigna un número a cada UM y se selecciona la muestra aleatoriamente con ayuda de tablas de números aleatorios, calculadoras, sorteo, etc. Esta técnica solo puede ser aplicada cuando se dispone de un marco muestral completo, que incluya a todas las UM, y éstas puedan ser reconocidas e identificadas sin dificultad en el terreno. Por ejemplo, un listado telefónico, o una lista de domicilios con identificación de calle y número, o nombre del ocupante de la vivienda. En el caso de muestreo de recursos naturales, suele ser difícil identificar o localizar exactamente a las parcelas sorteadas, ya que se necesita un mapa detallado e instrumentos de localización geográfica de precisión adecuada.

Muestreo aleatorio simple

Universo

• 70 ladrilleras en una ciudad

• Todas son pequeñas, con producción entre 30 mil y 60 mil ladrillos por año

Marco Muestral

• Listado de establecimientos de la Oficina Municipal Tributaria

Unidad Muestral

• Establecimiento

Selección aleatoria

• Se numeran los establecimientos y por medio de un sorteo o usando números aleatorios se eligen "n" establecimientos para entrevistar

Cuándo se debe usar el muestreo aleatorio simple:

• Cuando se sabe que la variable de mayor interés se distribuye aleatoriamente en el universo.

• Para universos pequeños (no más de 200 UMs).

• Para universos de poca dispersión geográfica.

• Cuando no se conoce el patrón de distribución para la variable de interés.

3.4.2 Muestreo aleatorio estratificado

Este tipo de muestreo se utiliza cuando el universo original, de tamaño N, es fragmentado en estratos relativamente homogéneos en cuanto a la variable de interés. Esto es aconsejable siempre que la variación entre estratos sea mayor que la interna de cada estrato.

Muestreo aleatorio estratificado

Universo

• 15 500 ha de tierra donde se produce leña en diferentes Usos del Suelo

Estratos

• Potreros (3 000 ha)

• Cercos vivos (4 000 ha)

• Bosque natural (3 000 ha)

• Vegetación secundaria (5 500 ha de manigua, acahual o capuera)

Marco muestral

• Mapa de uso del suelo a escala 1:20 000

Unidad muestral

• Parcela (de tamaño específico para cada uso del suelo)

Selección aleatoria

• Elección de "n" parcelas al azar dentro de cada estrato (uso del suelo)

A cada uno de estos estratos se les trata independientemente como un universo, en cuanto al método de selección de las UM y de estimación de parámetros. Al interior de cada estrato, las UM se pueden seleccionar en forma aleatoria, por conglomerados o sistemáticamente.

El muestreo estratificado permite mejorar la precisión de las estimaciones con menor esfuerzo de muestreo, caracterizar a cada estrato por separado y facilitar la coordinación del trabajo de campo.

Es muy importante considerar que las unidades de muestreo deben pertenecer a un solo estrato, que los estratos deben ser reconocibles más allá del grupo que hizo el estudio y que debe conocerse el tamaño del estrato. No es recomendable formar muchos estratos, pues se complicaría innecesariamente el estudio a campo y el análisis de datos.

Para tomar la decisión de hacer un muestreo estratificado existen criterios generales. En el grupo de demanda de dendrocombustibles, la saturación y el consumo son las variables que en primera instancia deben definir la pertinencia de estratificar. En el grupo de oferta directa la estratificación se hace por tipo de fuente, clase de cobertura o de uso del suelo. Para el grupo de oferta indirecta, y abastecedores, productores, transportistas y comercializadores) se usa el volumen de producción o comercialización. Como se trata de variables que se deben conocer antes de hacer el estudio, es posible obtener datos de ellas por fuentes secundarias o por variables indicadoras, lo cual se detalla en el Capítulo 2.

¿Cuándo se debe usar el muestreo estratificado?

• Se usa principalmente en poblaciones donde se supone o se conoce que la distribución de la(s) variable(s) de mayor interés es diferente entre subpoblaciones fácilmente identificables.

• Por su baja eficiencia del muestreo, NO se recomienda aplicarlo en universos pequeños, con menos de 200 UM y variables de distribución normal .

Muestreo por conglomerados
Universo

• Localidad con 650 viviendas distribuidas dispersamente en un área grande y con un trazado regular de calles.

Conglomerados

• Manzanas (cuadras)

Marco muestral

• Número total de viviendas en la localidad

• Croquis de la localidad con el trazado actualizado de calles y una estimación promedio del número de viviendas por manzana

Unidad muestral

• Viviendas

Selección aleatoria

• Se numeran las "manzanas" y se eligen al azar. En cada una de ellas se visita a todas las viviendas

3.4.3 Muestreo por conglomerados

Un conglomerado es un conjunto espacialmente compacto de UM.

Los conglomerados se seleccionan aleatoriamente y dentro de cada uno se estudian todas sus UM o se hace un muestreo de ellos.

¿Cuándo se debe usar el muestreo por conglomerados?

• Se aplica cuando existe alta dificultad para llegar a todas las UM del universo debido a una gran dispersión espacial o a tener barreras físicas de acceso.

3.4.4 Selección sistemática

Este no es propiamente un tipo de muestreo y es conveniente considerarlo como un esquema de selección regular de muestra.

La selección de la primera UM es aleatoria y las siguientes se eligen con un intervalo regular de UM, distancias o tiempo. Su limitación teórica consiste en que sólo el primer número se selecciona al azar, y los restantes no tienen la misma probabilidad de ser incluidos en la muestra. Su ventaja reside en que facilita la localización de UM en lugares donde hay dificultad de acceso y en que permite visitar UM que no se encuentren definidas en el marco muestral.

¿Cuándo se debe usar la selección sistemática?

• Cuando no hay posibilidad de identificar en el marco muestral a cada una de las UM. Por ejemplo, en ciudades grandes donde no se tienen listados de viviendas

• Cuando se dificulta el acceso a las UM, por distancias, falta de caminos o en terrenos abruptos. Por ejemplo, en un inventario forestal.

• Combinación de tipos de muestreo

Selección sistemática

Universo

• Ciudad con 3 000 viviendas distribuidas espacialmente en forma compacta

Marco Muestral

• Croquis de las calles de la ciudad

• Número total de viviendas (actualizado)

Unidad Muestral

• Vivienda
Selección sistemática

• Se determina el intervalo de visita a las viviendas dividiendo el número total de viviendas por el número de viviendas a muestrear.

• La primera vivienda se elige al azar y las restantes se visitan de acuerdo al intervalo calculado

En un mismo estudio o diagnóstico, es posible combinar diferentes tipos de muestreo, según sean las características de los sectores o ramos considerados y el grado de compromiso aceptado entre la precisión y el costo de ejecución del estudio. Por ejemplo, en el sector residencial puede optarse por un muestreo estratificado bietápico con conglomerados, en tanto que para un ramo industrial pequeño, homogéneo y compacto se elija un aleatorio simple.

3.5 Tamaño de la muestra

El tamaño de la muestra debe definirse independientemente para cada universo, en función de tres factores: la variabilidad de la variable numérica más importante, el nivel de confianza fijado y el nivel de error aceptable. Esto se resume en la siguiente fórmula7:

n_o = (s² . t²_,)/ e² (1) en términos de varianza y error absoluto

n_o = (cv² . t²_,)/ e² (2) en términos de cv y error relativo

donde:

n_o = tamaño de la muestra

s² = varianza de la muestra

t² = valor crítico de la distribución t de Student, con un nivel de significancia _ y _ grados de libertad

e = error aceptable

cv = coeficiente de variación = desviación estándar de la muestra/ media muestral

= grados de libertad = n - 1

La varianza (s²) o el coeficiente de variación (cv) indican el grado de heterogeneidad u homogeneidad de la variable de interés en la muestra y se los calcula -manualmente, con calculadora o con Excel- con los datos de una muestra preliminar o de algún estudio previo.

El error aceptable (e) se refiere a la diferencia que se permite entre la media de la muestra y la media del universo. Se fija de acuerdo al conocimiento previo que se tiene del fenómeno y es aconsejable que se encuentre entre el 10% y el 20%, lo cual puede expresarse también en valores absolutos con las unidades de medición de la variable en cuestión.

El valor crítico de t se obtiene de tablas en libros de estadística de Excel, definiéndose primero el nivel de significancia () o su complemento, el nivel de confianza (1-). Para este tipo de estudios es suficiente con un nivel de confianza de 0.95, que equivale a = 0.05(2). Además, se debe fijar preliminarmente un número de casos de la muestra (n) para definir los grados de libertad ( = n-1). Estos dos valores son los datos de entrada de las tablas de t. Posteriormente, por medio de un proceso iterativo, en donde el valor de n obtenido con la Fórmula 1 se utiliza para encontrar el valor de t, se precisa el tamaño de la muestra.

En esta fórmula se aprecia que el número de elementos que componen la muestra es directamente proporcional a la varianza y al valor de t cuadrado, e inversamente proporcional al cuadrado del error. El tamaño de muestra será grande cuando: a) el fenómeno en estudio sea muy variable (varianza o coeficiente de variación alto); b) el nivel de confianza fijado sea alto; y/o c) el error aceptable sea bajo. En cambio, el tamaño de la muestra será pequeño si encontramos un fenómeno poco variable, fijamos una confianza baja y se acepta un error alto.

Con ello queda demostrado que el tamaño de una muestra NO depende del tamaño del universo. Así, por ejemplo, partiendo de iguales niveles de confianza y error aceptado, en un bosque tropical húmedo con la misma superficie que un bosque templado de pino, el tamaño de muestra será mayor en el primero porque es sabido que tiene más heterogeneidad en la variable existencia de madera que el bosque de pino.

Hasta ahora no se ha considerado el tamaño del universo para determinar el tamaño de muestra. Sin embargo, para universos pequeños, menores a 120 U.M., es necesario corregir el valor de n_o obtenido de la Fórmula 1, a través del uso de la Fórmula⁸:

n = n_o/ (1 + n_o / N) (2)

donde:

n_o = tamaño de muestra obtenido en la fórmula anterior

N = tamaño del universo

n = tamaño definitivo de muestra

En el Anexo III se muestra una tabla con el cálculo del tamaño de muestra en el sector residencial, corregido por población finita, para la variable consumo específico de leña, que por un gran número de estudios de caso se conoce su coeficiente de variación.

Variables para calcular el tamaño de muestra

• Para la definición del tamaño de muestra de cualquier sector o ramo de demanda de dendrocombustibles, se recomienda utilizar la variable consumo unitario.

• En los sectores industrial, comercio e institucional no siempre es posible tener datos sobre consumo unitario, por lo que puede usarse el volumen de producción por unidad de tiempo, que está muy correlacionado con el consumo unitario.

• Para la oferta directa (bosques, plantaciones, etc.), las variables relevantes pueden ser la existencia o la productividad, pero se recomienda el uso de la primera por haber más información secundaria y ser más fácil de medir en un muestreo preliminar. Si no hay datos sobre existencias, puede utilizarse el área basal (G).

• En los sectores o ramos de oferta indirecta (aserraderos, carpinterías, etc.) se debe usar el volumen de producción por unidad de tiempo.

• En los sectores de abastecimiento, con los productores es conveniente usar el volumen de producción de dendrocombustibles, con los comercializadores el volumen de venta y con los transportistas la capacidad de transporte, todas expresadas por unidad de tiempo.

La decisión final sobre el tamaño de muestra dependerá de un compromiso entre la precisión esperada en la estimación y la disponibilidad de recursos (monetarios, humanos y tiempo) para ejecutar el estudio a campo. Se recomienda que los sectores o ramos con mayor importancia en demanda, oferta y abastecimiento de dendrocombustibles se privilegien en la asignación de recursos para el estudio a campo, para lograr en ellos mayor precisión en la estimación. En aquellas situaciones en que no sea posible cubrir el tamaño de muestra derivado del cálculo estadístico, es forzoso estudiar un mínimo de 10 unidades de muestreo por sector, ramo o estrato, reportando en el informe del diagnóstico el error de estimación, despejando e de la Fórmula 1.

⁶ El "universo" también es llamado "población" en estadística.

⁷ Fórmula usada para determinar el tamaño de muestra necesario para estimar la media poblacional, pues en pruebas de hipótesis para diferencias entre medias y varianzas existen otras fórmulas. Se recomienda tener como apoyo algunos libros de estadística, como Zar 1999; Cochran 1977; y Steel y Torrie 1988.

⁸ Llamada "corrección por población finita".