Página precedente Indice


APENDICE 4

Teoría Básica y Diseño del Muestreo

INDICE

1.Población, base, unidades de muestreo, unidades de encuesta
2.Método de selección
3.Estimación de la medida de la población a partir de una muestra y precisión de la estimación
 3.1Estimación del total de la población y su precisión
 3.2Tamaño de la muestra
4.Estimación de proporciones y su utilidad
5.Muestreo estratificado
 5.1Tamanõ de la muestra en los diferentes estratos
6.Estimación proporcional
7.Muestreo de probabilidad desigual
 7.1Método de selección
 7.2Método de estimación
8.Muestreo en dos etapas
 8.1Selección aleatoria de las unidades de la primera etapa
 8.2Selección de las unidades de la primera etapa con probabilidad proporcional al tamanõ (ppt)

1. Población, Base, Unidades de Muestreo, Unidades de Encuesta

Cuando se proyecta una encuesta es necesario, en primer lugar, definir las unidades que deben incluirse en la encuesta y su contexto geográfico. Todo muestreo riguroso exige una subdivisión del material a muestrear en unidades, denominadas “unidades de muestreo”, que constituyen la base del proceso real de muestreo. La definición clara e inequívoca exige la existencia o construcción de una lista (= base de muestreo) de las unidades de muestreo. En el caso de las Encuestas de Evaluación de Capturas (pesquerías tradicionales y artesanales) se puede introducir la siguiente jerarquía de unidades de muestreo:

- Unidades primarias de muestreo (UPM): lugares de desembarco

- Unidades secundarias de muestreo (USM): unidades económicas de pesca

Las unidades de información sobre las características de la encuesta se obtienen de dichas USM, tambien denominadas “unidades de encuesta”.

Para la recolección de datos se puede utilizar uno de los dos métodos siguientes de encuesta:

(a) el método del censo. Este implica una completa enumeración de la población encuestada; con el método del censo se obtiene información sobre todas las unidades de encuesta de la población, y (b) el método de muestreo, en el que la información se obtiene a partir de una fracción propiamente seleccionada de la población encuestada. En encuestas a gran escala, la selección de muestra se hace a partir de la base de muestreo existente.

2. Selección de las Unidades de Encuesta

Si hay N unidades de muestreo en la población y queremos extraer una muestra1 aleatoria simple de tamaño n, podemos elaborar todas las muestras posibles de tamaño n y seleccionar una de ellas aleatoriamente. El número de todas las muestras diferentes posibles de tamaño n que pueden ser seleccionadas de una población N:

donde ! indica el factorial p.e., 3! = 1 × 2 × 3, etc. por ejemplo, si N = 4 y n = 2, el número de muestras distintas que pueden ser seleccionadas es:

En la práctica, cuando N es grande, no es posible enumerar todas las distintas muestras posibles y luego seleccionar una de ellas. Normalmente se extrae unidad por unidad una muestra aleatoria simple. Las unidades en la población se designan de 1 a N seriadamente. Después recurrimos a una tabla de números aleatorios (ver la tabla 1 del apéndice) y extraeremos de ella una serie de n números que estén entre uno y N, teniendo cuidado de rechazar números superiores a N y no permitiendo que los mismos números aparezcan más de una vez en la serie. Las unidades de población asignadas a los números seleccionados en la serie constituyen nuestra muestra de N unidades seleccionadas. Se ha demostrado que este método proporciona muestras aleatorias simples.

Ejemplo

Hay N=28 puntos de desembarco en un distrito. Queremos una muestra aleatoria simple de n=5 lugares de desembarco.

Ya que N=28 es un número de 2 dígitos, acudimos a cualquier fila de números de dos dígitos en la Tabla de Números Aleatorios. Con respecto a la primera hilera, encontramos que los números consecutivos son: 23, 5, 14, 38, 97, 11, 43, 93, 49, 36, 7, etc.

Ahora seleccionamos aquellos comprendidos entre 1 y 28 hasta obtener una serie de 5 números. La serie elegida es: 23, 5, 11, 14 y 7.

Los lugares de desembarco marcados con esos números en la población constituyen nuestra muestra.

1 Esto significa que cada unidad en la población tiene una probabilidad igual y distinta de 0 de ser seleccionada en la muestra

3. Estimación de la Media Poblacional a Partir de una Muestra y Precisión de la Estimación

Si tenemos N unidades en la población y medimos una determinada característica (y) de todas las unidades, tendremos:

La variabilidad de las características medidas entre las unidades de la población es Sy2

Ahora, si extraemos una muestra de n unidades entre las N unidades de la población, podemos definir:

Y la varianza por unidad en la muestra se dá como:

Si se emplea el mismo método de medida de las características para las unidades de la población que para las unidades de la muestra, el valor absoluto de la precisión de la media muestral es:

Generalmente, la media poblacional ; es desconocida, y el propósito principal del muestreo es obtener una estimación de a partir de la muestra, así como obtener una medida de la precisión de la estimación. Ahora sabemos que en MAS podemos obtener Ncn muestras (o n unidades) de una población de N unidades, y podemos tener una serie de Ncn medias muestrales ;. En el caso de una selección de MAS, se ha demostrado que el valor promedio de todas las medias muestrales posibles ; es igual a ;, por lo que ; es una estimación no sesgada de ;. También se ha demostrado que en este tipo de muestreo la varianza de ; es:

La desviación típica de la media muestral es:

S; mide el grado de dispersión de las posibles medias muestrales alrededor de ;. Cuanto más pequeña sea, menor será la probabilidad de una gran desviación de ; respecto de ;. Para n>30 se ha visto que, para un nivel de confianza del 95% la media poblacional ; cae dentro del intervalo:

Así vemos que S; proporciona una medida de la precisión de la estimación muestral.

Generalmente no conocemos Sy para calcular S;. En MAS, una estimación no sesgada de Sy la proporciona sy.

De este modo, una estimación no sesgada de la desviación típica de la media muestral y será

La precisión relativa de ; es/

Y una estima no sesgada de CV(;) es:

3.1 Estimación del Total Poblacional y su Precisión

En MAS, la estimación del total poblacional es:

Y la varianza estimada de Ŷ es:

La desviación típica estimada de Ŷ es:

El coeficiente de variación estimado de Ŷ es:

Ejemplo 3.1a

En un lugar de desembarco descargan su captura cierto día 30 embarcaciones, y se examinan las capturas (yi) de 10 barcos elegidos al azar. Estimar la captura total del día, su desviación típica y su coeficiente de variación.

Barco muestraCaptura (kg)
 yii
112144
2  8  64
3  4  16
4  6  36
5  0  0
616256
7  5  25
8  9  81
911121
10  9  81

Tenemos: ∑yi = 80 ; ∑yi² = 824

Las diversas estimaciones son:

3.2 Tamaño de la muestra

En la Sección 3 hemos visto que:

Ahora, para N grande, el nivel de confianza del 95%, la media poblacional caerá dentro del intervalo ; ± 1,96 S; o, aproximadamente, ; ± 2 S;. Por lo tanto,

representa el porcentaje de exactitud de la media al nivel de significación del 5%.

De este modo, el tamaño de la muestra n requerido para una exactitud a % de la media al nivel de significación del 5 %, es:

Ejemplo 3.2a

En una encuesta, la muestra n = 18 dió una media de ; = 589,44 kg y sy = 531,79. ¿Cuantas unida- des se necesitarín si se desease estimar, al nivel de significación del 5 %, la media a) dentro del 10 %, b) dentro del 5 %, y c) dentro del 1 % de la media de la población?

Tenemos

Por lo tanto,

(a) El número de unidades requeridas para obtener ; con una precisión del 10 % es:

(b) Para una precisión del 5 %,

(c) Para una precisión del 1 %,

Ejemplo 3.2b

En el ejemplo 3.1a, si hubiesemos obtenido una estimación de ; con un coeficiente de variación del 5 %, ¿qué tamaño de muestra necesitaríamos?

Tenemos,

Por lo tanto,

4. ESTIMACION DE PROPORCIONES Y SU UTILIDAD

Supongamos que hay N unidades en la población, de las cuales Ni pertenecen a la clase i, de modo que la proporción de pertenecientes a esa clase es: Pi = Ni/N. Queremos estimar Ni y Pi de una muestra aleatoria simple de n unidades, en la que ni son de la clase i, por lo que Pi = ni/n.

Se ha demostrado que una estimación no sesgada i de Pi resulta de pi, de forma que i = pi = ni/n, y la estimación no sesgada de Ni (donde Ni es el número de unidades de la clase i en la población) resulta de: i = N pi

Y una estimación no sesgada de la varianza de Pi será

Cuando n/N es muy pequeño, es decir, n es pequeño en comparación con N, o N es muy grande,

Una estimación no sesgada de la varianza de Ni será

Si la magnitud de N es, a su vez, una estimación, la varianza estimada de Ni resulta de::

Ejemplo 4.1

Se tomó una muestra aleatoria de 82 embarcaciones de entre 820. Se vió que 32 usaban liñas. Estimar la proporción y número de barcos que usan liñas.

Ejemplo 4.2

El número de bacalaos desembarcados fue de 2 000. Se extrajo una muestra de 100 ejemplares y se determinaron sus edades, siendo la distribución como sigue:

Edad
89101112Total
Número (ni)
14547196100

Hallar el número estimado de bacalaos de cada grupo de edad en el desembarco total y la varianza de las estimaciones.

Tenemos: N = 2 000; n = n1 + n2 + n3 + n4 + n5 = 100

Edad
89101112Total
ni
14547196100
pi
.14.54.07.19.06 
qi
.86.46.93.81.94 
pi qi
.12.25.07.15.06 

5. MUESTREO ESTRATIFICADO

Se ha visto en muestreo aleatorio simple que la varianza de la media v (;) depende, aparte del tamaño de la muestra n de la variabilidad de las características en la población, es decir, de Sy². Si la población es heterogénea, esto es, las mediciones varían considerablemente de una unidad a otra, entonces, usando información auxiliar, puede ser posible dividir la población en sub-poblaciones (o estratos), cada uno de los cuales es homogéneo internamente.

Supongamos que hay N unidades en la población, estratificadas según k estratos con Ni unidades en el estrato i -ésimo. Extraigamos una muestra de n unidades, de las que ni pertenezcan al estrato i -ésimo. Sea yij la medida de la unidad j -ésima en el estrato i -ésimo.

También tenemos,

Las estimaciones no sesgadas de la varianza son:

Donde,

Si la fracción muestral ni/Ni es despreciable para todos los estratos, entonces tendremos:

Ejemplo 5

De 200 barcos de un distrito, 70 se dedicaron a la pesca con liña, 120 al trasmallo y 10 al boliche. Con el fin de estimar la captura, se seleccionaron 5 barcos de liña, 7 de trasmallos y 3 de boliche, y sus capturas en toneladas para el mes de enero se anotaron como sigue:

Barcos de liña:
2,3,4,5,6  
Barcos de trasmallo:
7,8,9,10,12,13,11
Barcos de boliche:
20,23,26    

¿Cual fue la captura total estimada en el distrito en enero y la varianza de la estima? ¿Cual es la captura media por barco y su varianza?

EstratoNini;iiNi;ii(1/ni - 1/Ni)i(1/ni - (1/Ni)s²i
1 70542.50 280 9102 275.00
21207104.671 2001 937.149 046.44
3 103239.00 23023.33209.97
Total:200 15--1 710-11 530.97

De ahí,

Nota: si no hubiese estratificación y hubiesemos escogido una selección aleatoria simple de 15 unidades, y sus capturas fuesen como en el ejemplo 5, tendriamos:

y,

Ŷ= 10.06 x 200 = 2 012 t

Entonces

Con la estratificación, hemos obtenido claramente una estimación con un menor cv(Ŷ) que en el caso de selección aleatoria simple.

5.1 Tamaño de la Muestra en los diferentes Estratos

En el ejemplo 5 hemos elegido una muestra de 15 unidades, y la asignación del número de unidades a cada estrato fue realizada arbitrariamente.

Ahora bién, cuando la fracción muestral es despreciable, sabemos por la ecuación (5.5) que la varianza de la población total es:

Esta ecuación sugiere dos métodos de asignación de n entre los diferentes estratos:

(a) Asignación proporcional

En este método ni es proporcional a Ni. Si las varianzas dentro de los estratos son iguales, el método proporciona la varianza muestral mínima, esto es, las estimaciones más eficientes. Generalmente, la asignación proporcional se usa cuando no se dispone de información sobre la varianza de cada estrato.

(b) Asignación óptima

Cuando las varianzas dentro de cada estrato difieren entre si sustancialmente, la asignación proporcional ya no suministra las mejores estimaciones. En estos casos, es mejor que la fracción muestral se tome proporcionalmente a la desviación típica dentro de cada estrato.

Para más detalles pueden consultarse los libros de diseño de muestreos (por ejemplo, Yates, Bazigos, 1974).

Ejemplo 5.1

Se han obtenido las siguientes capturas (kg) en 18 lances de una campaña de arrastre:

200,
440,600,640,700,800,900,1 020,1 600,1 920
20,
10,340,400,720,     
40,
100,160       

(a)   Si el arte de arrastre cubrió 40 ha por lance, si capturó 50 % de todos los peces que encontró en su camino, y si el área total de la encuesta era 6 × 106 ha, estimar la abundancia total de pescado.

(b)   Si los primeros 10 lances fueron realizados en profundidades de 0 a 20 m, los 5 siguientes en 20 – 40 m, y los tres últimos a más de 40 m y las áreas de esas zonas de profundidad son 1 × 106, 2 × 106 y 3 × 106 ha, respectivamente, ¿cuál será la estimación de la abundancia?

(c)   Hallar las varianzas de las dos estimaciones anteriores.

Solución

(a) Muestra no estratificada

Sea ; la captura media y, si a es el área barrida por el arte en cada lance, la captura por hectárea será ;/a. Ya que el arte captura solamente el 50 %, esto es, el coeficiente de capturabilidad q es 1/2, la densidad de la población por ha es: ;/aq

Por lo tanto, la abundancia estimada de la población:

donde n es el número de lances de muestra.

Ahora tenemos

Por lo tanto,

(b) Muestra estratificada

En este caso,

Los cálculos numéricos pueden hacerse convenientemente en forma tabular:

Estratoni;iiAiAi/qaBi = Ai ;i/qa(Ai/qa)² S²i/ni
  (kg)  (t)(kg²)
110882272 306.671 × 10650 × 10³44 1001012 × 66.08
2529887 620.002 × 106100 × 10³29 8001012 × 175.24
331003 600.003 × 106150 × 10³15 0001012 × 27.00
      =88 9001012 × 270.32

6. ESTIMACION PROPORCIONAL

Este es otro método en el cual se hace uso de información auxiliar para aumentar la precisión. Supongamos que hemos seleccionado al azar n unidades de entre n unidades de la población, y para cada una de ellas hemos medido (x, y), donde y es la variable encuestada y x es otra variable correlacionada con la anterior. Se sabe que el total poblacional de la variable x es:

pero y no puede conocerse para cada unidad de la población, excepto aquellas unidades que aparecían en la muestra. En este caso, una estimación del total poblacional de la variable encuestada resulta de: Ŷrat = X, donde la estimación de R se obtiene a partir de la muestra como:

La varianza de la estima proporcional Ŷrat será:

donde r es el coeficiente de correlación estimado entre x e y.

Ejemplo 6.1

Hay en un país 50 centros de desembarco donde descargan gamberas. Los buques están matricula- dos, y se sabe que su total es de 280 por el registro de matriculas. Ahora bien, se seleccionan al azar 5 centros de desembarco y se obtiene la captura (y) y el número de arrastreros (x) en cada uno de los centros. Hacer una estimación proporcional de Yrat, desembarco total de las gamberas en el país.

Tenemos,

Centros de desembarco:
Total- N = 50
 Muestras- n = 5
Arrastreros:
Total- X = 280

Tenemos,

Centro de
desembarco
muestra
No de
arrastreros
(x)
Captura
(y)
(t)
xy
1 222 4 48444
210951009 025 950
3 762 493 844434
4 333 91 089 99
5 883 646 889664
Total:3029522621 3312 191

Tenemos,

7. MUESTREO DE PROBABILIDAD DESIGUAL

Hemos visto que con la estratificación y estimación proporcional podemos aumentar la precisión de una estimación. Otra técnica utilizada con este fín es el muestreo “ppt”, en el que se eligen las unidades con probabilidad proporcional a sus tamaños. Se usa mucho en casos en que se prefiere el muestreo por conglomerados al muestreo directo de unidades individuales, en razón de que es económico muestrear un número fijo de unidades individuales cuando están agrupadas en conglomerados, y que algunas veces no se conoce con seguridad la estructura de las unidades individuales.

7.1 Método de Selección

Supongamos que hay 10 lugares de desembarco con un número de barcos en cada lugar que se muestra en la columna 2. Queremos seleccionar 3 puntos con ppt.

Lugar de
desembarco
No de
barcos
Total
acumulado
Números
asignados
No aleatorio elegido o
lugar de desembarco
(1)(2)(3)(4)(5)
 112 12001–012 
 2 5 17013–017
Aleatorio No 011
 320 37018–037
Puesto de pesca 01
 4 2 39038–039
Aleatorio No 027
 530 69040–069
Puesto de pesca 03
 615 84070–084
Aleatorio No 064
 7 8 92085–092
Puesto de pesca 05
 8 6 98093–098 
 9 8106099–106 
1014120107–120 
 120   

La columna 3 son los totales acumulados. Ahora, a cada puesto se le asigna un número proporcional a su tamaño. Así, el puesto N° 1 tiene asignados 12 números, del 001 al 012; al puesto 5 se le asignan 30 números, del 040 al 069, y así sucesivamente. Después usamos la tabla de números aleatorios y seleccionamos 3 números del 1 al 120. Los números elegidos son: 011, 027 y 064. Los puestos de desembarco correspondientes son el 1, el 3 y el 5.

Debe hacerse notar que con este método de selección una unidad con mayor tamaño tiene mayor probabilidad de elección que una unidad menor.

7.2 Método de estimación

Supongamos que hay N unidades muestrales primarias (lugares de pesca), y sea xi el número de unidades secundarias (barcos) en el i -ésimo puesto. Si se seleccionan n unidades primarias con ppt, entonces la probabilidad Pi de seleccionar la unidad i -ésima en la muestra es: Pi = xi/∑xi

La estimación del total poblacional Y será:

donde yi es la medida de la i -ésima unidad en la muestra; y la varianza estimada de Y viene dada por:

Ejemplo 7.2

Hay 20 centros de desembarco en un distrito. El número de barcos en cada centro es conocido, xi = número de barcos en el centro i -ésimo, y por lo tanto, sabemos que X = ∑xi es igual a 496. Se seleccionan 4 puntos entre los 20 con ppt. En la tabla siguiente, la columna l da los 4 puntos seleccionados, la columna 2 da el número de barcos (x) en cada uno, y la columna 3 expresa los desembarcos en esos puestos durante un mes. Estimar el desembarco total mensual Ŷ y var(Ŷ).

Puestos
muestra
N° de
barcos
Desembarcos
(in t.)
Pi = xi/xti = yi/Pi
 (xi)(yi)   
(1)(2)(3)(4)(5)(6)
122810.04431 8283 341 584
2301180.06051 9503 802 500
3301180.06051 9503 802 500
4421700.08472 0074 028 049
Total:   7 73514 974 633

A partir de (7.2.1) tenemos:

A partir de (7.2.2) tenemos:

8. MUESTREO EN DOS ETAPAS

En el muestreo en dos etapas se elige primero una muestra de primera etapa y, en cada una de las unidades seleccionadas, una muestra ulterior de unidades de encuesta. Puede hacerse una selección simple para las unidades de primera etapa, o puede usarse la probabilidad proporcional al tamaño.

8.1 Selección Aleatoria de las Unidades de la Primera Etapa (SRS)

Tengamos:

N = número de unidades de la primera etapa

n = número de unidades muestrales de la primera etapa

Mi = número de unidades de encuesta en la i -ésima unidad de la primera etapa

La estimación no sesgada del total poblacional de la característica (y) de la encuesta se obtiene como:

donde,

y su varianza estimada es:

donde.

Ejemplo 8.1

Supongamos 8 lugares de pesca (N = 8). Primero seleccionamos n = 3 lugares al azar y para cada uno elegimos 3 nasas y medimos su captura. El número de nasas existente en cada lugar elegido y las capturas de cada nasa seleccionada se muestran más abajo. Calcular la captura total estimada de las pesquerías de nasas y su varianza.

Lugares muestra123
No de nasas en cada lugar (Mi)697
No de nasas elegidas333
Captura de las nasas elegidas13512
 978
 61013
Total muestral282233
si²12,36,37,0

Desembarcos totales estimados,

Debe tenerse en cuenta que la contribución de 1 473,3 a la v(Y) se debe a la diferencia de captura obtenida entre los lugares de pesca y que es mucho más grande que 673,3, que a su vez es debida a diferencias entre unidades de segunda etapa dentro de las unidades de primera etapa.

8.2 Selección de las Unidades de la Primera Etapa con Probabilidad Proporcional al Tamaño

La captura estimada en el lugar i -ésimo se expresa como:

La estimación no sesgada del total poblacional resulta de:

La varianza de Y será

Ejemplo 8.2

Se escogieron 3 lugares de pesca con ppt y dentro de cada lugar de muestra se seleccionó una muestra aleatoria simple de barcos. En la tabla siguiente se dan las capturas (en kg) de la muestra elegida. Calcular Ŷ y cv(Ŷ).

Por lo tanto,

y,

TABLA DEL APENDICE 1

Tabla de números aleatorios

123456789101112
137043693881874212204115
269982789905229952328091
725395810798147452587310
220808683716366220023598
216190538572869487185011
473855665096967834455278
966813073129700916668109
459293448772267582317269
788571453216579152059320
519950886254905101391870
676230028817372542860032
030889771241152552309311
451004669470337497234097
624846970436312729848535
595933635343603015816759
726367172455683224801392
462815702898533603898374
210309163148051098621415
848253399214078404016617
756840903995461094683910
427729807338921181725088
635509846656921397148727
542970148595797277485792
429750611955385585578508
523047732654180575929508
884433024797470412389325
499193731415014702703096
454246069360410931295249
506974105189665157215495
185673160287410513871361

Tablas de números aleatorios (de Bazigos, 1974)


131415161718192021222324
769685278121753943778081
385109174185132066592220
409190517423548884121677
445323879153869742808337
312522301617323400072552
363520928112152842986752
361217038393486450325794
255140748516860922620638
723833973658909123911904
172075038553064129785115
755737776760704456910349
124735371517962495083955
736755641638587429714962
160229141678444934054696
489813291971987119518682
736542093992566836545546
229606415575086255191515
572611289816853967490230
477660922279706678139742
318030860854398838467421
915548362640177039940576
837010912064123315594328
283553143057073409562681
869162948396961702108971
248686526759632228764345
437370731941046025420950
526934016533196222412965
011592695378685874080511
944683724919980956832540
444206329517326780840969
815885331611871217391211
602584422294389652033897
531275597642734895575131
026801170900381231522224
096853928211960347313559


Página precedente Inicío de página