Sampling Procedure
DISEÑO MUESTRAL
MARCO MUESTRAL
El marco de la investigación es de áreas económico, conformado por la base cartográfica, a nivel manzana, de las cabeceras de los 1116 municipios del país.
Fecha de construcción: el marco se encuentra en proceso de actualización a nivel muestra de Unidades Primarias de Muestreo -UPM- y Unidades Secundarias de Muestreo -USM. En el estrato 1 (24 principales municipios) se realizó la respectiva homologación cartográfica de 2001 a 2004, quedando pendiente la actualización de Bogotá y área metropolitana de Medellín, que mantienen cartografía 1996 y 2001, respectivamente. En los demás estratos, el proceso se está realizando con la información económica del Censo General 2005 y con las bases de homologaciones que contienen la verificación de código DANE versus código censo y área geográfica (AG), proporcionadas por la Dirección de Geoestadística -DIG- del DANE.
Fuente: el marco muestral en principio se construyó a partir del marco económico de áreas correspondiente a 184 municipios del país, referenciado en las investigaciones "Construcción de marcos de áreas para las investigaciones económicas" y el "Censo económico de Cundinamarca", realizadas por el DANE en 1996 y 1999, respectivamente.
Método de actualización: en general, los procesos de mantenimiento requeridos se efectúan a nivel de unidades y de información auxiliar. En el caso particular del Marco de áreas para las investigaciones económicas, por tratarse de manzanas cartográficas que representan áreas geográficas, el mantenimiento a nivel de unidad se refiere a la homologación de códigos de una a otra cartografía para las manzanas existentes, la incorporación de nuevos desarrollos y la eliminación de las zonas demolidas o que ya no pertenecen al área urbana de los municipios; también contempla la eliminación de aquellas zonas que aparezcan repetidas en el marco, por problemas de codificación. A nivel de información auxiliar, el proceso de mantenimiento considera la actualización de la información correspondiente a cantidad de establecimientos, la adecuación de dicha información para responder a las necesidades de los distintos usuarios y, eventualmente,
la inclusión de nuevas variables que enriquezcan el marco.
El marco de áreas para las investigaciones económicas tiene como unidad la manzana cartográfica DANE. La identificación de ésta se hace a través de un código de 22 dígitos.
Este código es asignado especialmente para el DANE por la DIG y, por lo general, no coincide con los códigos asignados por otras entidades como Catastro Distrital; esto hace que el DANE tenga su propia cartografía y libertad para modificarla y actualizarla conforme a sus posibilidades. En la medida en que se producen cambios geográficos y físicos en las ciudades, la DIG se encarga de actualizar su cartografía, con el fin de garantizar la idoneidad del material que permite a los grupos operativos de la entidad movilizarse en campo. Una conjunción importante de cambios hace que se genere una nueva cartografía para determinado municipio.
En este caso, para efectuar el proceso de migración de una a otra cartografía, la DIG se encarga de elaborar una tabla de homologación, esto es, un archivo magnético que contiene el código asignado a cada una de las manzanas del municipio en la antigua cartografía y el código o los códigos nuevos asignados. En el caso de los nuevos desarrollos geográficos, esta tabla los incorpora mediante la adición de registros y la habilitación de nuevos códigos.
Para llevar a cabo el mantenimiento en este aspecto, es necesario identificar la base cartográfica aprobada por el DIG más reciente en cada uno de los municipios pertenecientes al Marco de Áreas. A la fecha, Bogotá tiene cartografía 96 como la más reciente, el área metropolitana de Medellín mantiene cartografía 2001 y el resto de municipios, cuentan con cartografía 2004. Lo ideal es que la base cartográfica del marco sea siempre la más reciente posible.
Una vez hecha esta identificación, debe solicitarse a la DIG las tablas de homologación correspondientes. Es importante efectuar una revisión de integridad a las tablas de homologación, previniendo la presencia de celdas vacías y verificando la integridad del código que identifica cada manzana.
Para efectuar la homologación se recomienda tener en cuenta los siguientes puntos:
1. Crear una copia del marco y haga las modificaciones sobre ésta, no sobre el marco original. Debe respetarse la integridad del marco antiguo como referente histórico.
2. Tratar simultáneamente las manzanas que presentan una misma novedad cartográfica y trate por separado las distintas novedades. Esto permite que los procedimientos efectuados para la homologación sean adecuaciones de un estándar para responder a situaciones particulares.
3. Crear un archivo nuevo al que adicionar las manzanas, paulatinamente, conforme se resuelva cada una de las novedades.
4. Guardar una variable que indique qué tipo de novedad presentó la manzana en el momento de la homologación. En ocasiones, las tablas de homologación presentan errores que son detectados fácilmente en campo y guardar la novedad facilita el proceso de corrección de estos errores en el marco y su reporte a la DIG.
5. Además de la homologación cartográfica, es necesario incluir en el marco la información existente que corresponde a cantidad de establecimientos. En el marco con que se cuenta, dicha información tiene un identificador que permite saber su procedencia y con ello, la fecha de su actualización; es importante que esta variable se conserve.
6. La información que se incluya en cantidad de establecimientos depende de la novedad cartográfica que la manzana presente, por esto es tan importante que la homologación se haga en forma simultánea para manzanas con la mismanovedad, y paulatinamente para las distintas novedades. Para el tratamiento de cada una de ellas, se recomienda:
- Manzanas sin novedad: trasladar la información de establecimientos y el identificador de procedencia de un marco al otro sin alteraciones.
- Manzanas reenumeradas: trasladar la información de establecimientos y el identificador de procedencia de un marco a su lugar correspondiente en el otro sin alteraciones.
- Fusión de manzanas: sumar la información correspondiente a las manzanas que participan en la fusión y actualice como dato el total. Coloque como identificador de procedencia de la información, el que corresponda según el marco original.
- División de manzanas: tomar la cantidad de establecimientos de la manzana en cuestión y divídala en partes iguales para asignarla a cada una de las manzanas que resultan de la división. Coloque como identificador de procedencia de la información el correspondiente.
- Creación de manzanas: colocar como información de cantidad de establecimientos, valores 0. Como identificador de procedencia colocar la letra N, señalando que la manzana es nueva y el 0 no es un dato necesariamente cierto.
- Eliminación de manzanas: simplemente no se incluyen en el nuevo marco.
7. Finalmente, se recomienda homologar las manzanas agrupándolas en el siguiente orden: Manzanas sin novedad, Manzanas Renumeradas, Fusiones, Divisiones, Manzanas Nuevas, Otras Novedades.
8. Si existen manzanas en el marco que han dejado de pertenecer a la zona urbana del municipio, deben ser eliminadas.
Una vez concluido el proceso de homologación cartográfica y de inclusión de la información auxiliar existente a nivel de manzana, es conveniente adicionar la información disponible a nivel de municipio - entre ella, una variable que indique a qué cartografía corresponde cada uno luego de la homologación - y estratificar el marco tanto a nivel de municipio como de manzana, conforme a los criterios metodológicos de la Encuesta Nacional de Microestablecimientos de Comercio, Servicios e Industria.
De igual manera, para mantener la memoria histórica del proceso y garantizar su verificabilidad, debe guardarse en un CD el marco antiguo, el marco nuevo, las tablas de homologación utilizadas y el programa o los programas SAS utilizados para efectuar la homologación, debidamente documentados.
Como revisión de calidad al nuevo marco, es útil llevar a cabo un análisis estadístico sobre la presencia de novedades cartográficas por municipio, y comparar tanto la estructura de estratificación de ambos marcos, como la distribución por municipio y general, de la información auxiliar contenida en él. Siempre y cuando las modificaciones cartográficas no sean muy drásticas, la distribución de las variables que corresponden a información auxiliar a nivel de manzana no debe variar sustancialmente.
DISEÑO DE LA MUESTRA
El método de muestreo para este estudio es probabilístico multietápico estratificado de conglomerados para algunos estratos y de elementos para otros.
Probabilístico: las unidades de muestreo en cada una de las etapas (municipios/áreas metropolitanas, manzanas, secciones y establecimientos) tienen una probabilidad de selección conocida y superior a cero de ser seleccionadas.
Multietápico: dado que no existe un marco actualizado de todos los microestablecimientos económicos del país, es necesario llegar a ellos a través de unidades muestrales que los contengan, como municipios o manzanas cartográficas. Debido a los altos costos que implicaría la selección directa de manzanas, el diseño cubre las siguientes etapas:
- Primera etapa: selección de municipios o áreas metropolitanas (UPM).
- Segunda etapa: selección de manzanas o secciones (USM), al interior de las UPM seleccionadas en la etapa anterior.
- Tercera etapa: selección de establecimientos económicos (UFM) dentro de las USM.
Estratificado: se consideran particiones poblacionales, definidas como conjuntos de elementos cuya unión conforma el universo, que no se traslapan y donde todos son diferentes de vacío, esto tratando de lograr homogeneidad dentro de ellas y heterogeneidad entre ellas.
En general, se estratifica por las siguientes razones:
- Necesidad del usuario de contar con estimadores individuales para cada estrato.
- Diferencia de disponibilidad de información auxiliar que permite aplicar, en algunos estratos diseños proporcionales al tamaño o estimadores más sofisticados.
- Diferencia de características operativas, vale decir de costos, tasas y velocidad de respuesta, distancias, aspecto de seguridad, etc., que hacen que el diseño que es eficiente en un estrato, no lo sea en otro.
- Concentración y distribución de la característica en estudio, que permite reducir considerablemente la varianza del estimador, al ampliar la muestra en aquellos estratos en los que se obtiene mayor ganancia en eficiencia y reducirla en los que la pérdida no es muy grande.
TAMAÑO DE LA MUESTRA
Para el cálculo del tamaño de muestra, tanto de comercio como de industria, se determinó un nivel de precisión global deseado (error estándar relativo o coeficiente de variación (CV)),
entre el 5 y el 10% para las variables de interés: ventas, personal ocupado y total de establecimientos; este CV permite presentar la información a nivel estrato.
Al igual que los demás procedimientos realizados en esta metodología el tamaño de muestra se calcula por etapas: primero municipios, luego manzanas o secciones y finalmente
establecimientos, dependiendo del estrato y el subestrato en los cuales se esté trabajando.
En general, la determinación del tamaño de muestra se realiza por simulación siguiendo la metodología de Särndal (1992), en la cual se fija un CV y a partir de éste se halla el tamaño
de muestra despejando n de la fórmula de la varianza del estimador, según el diseño utilizado en cada caso.
Como el diseño es estratificado, al fijar el tamaño de muestra dentro de cada estrato se busca que éste permita alcanzar el CV fijado para el estudio. La estructura de estratificación cumple los principios de independencia e invarianza, por lo cual en la fórmula para el CV de este estudio, la varianza estimada del estimador resulta de sumar las obtenidas en cada estrato y con un procedimiento análogo se llega al estimador del total.
· Fuentes de información: Comercio, servicio e industria.
Para el cálculo del tamaño de muestra de comercio, servicio e industria se hizo uso de la información de ventas obtenida de la Encuesta de microestablecimientos por áreas, realizada en los cuatro trimestres del año 2002.
CÁLCULO DEL TAMAÑO DE MUESTRA :
ESTRATO 1:
Para el cálculo del tamaño de muestra se determinó un intervalo de oscilación del CV entre el 5 y el 10, para las variables de interés. En la primera etapa de la investigación se incluyeron las 24 áreas metropolitanas y dentro de cada una los subestratos ya mencionados. En cada uno de estos subestratos se ajustaron el total y su varianza, estratificando la información disponible de la Encuesta de microestablecimientos
En el caso de la varianza, el ajuste se hizo teniendo en cuenta el tamaño, en términos de USM del subestrato en cada área metropolitana; para el total se manejó la misma idea de ajuste por lo cual fue necesario estimar el promedio de las variables de interés en cada subestrato según la USM, luego se ponderó por el número de USM en el subestrato. El único criterio de ajuste para el total de las variables de interés en el área es que no exceda el del área inmediatamente anterior en importancia.
Se decidió hacer el siguiente ejercicio para poder determinar el tamaño de muestra:
· Bajo el supuesto de estratificar y aplicar al interior de cada estrato MAS (muestreo aleatorio simple), como alternativa para observar el tamaño de muestra óptimo, se utilizó la asignación de Neyman con miras a distribuir en los subestratos el tamaño de muestra determinado inicialmente. Las variables auxiliares fueron la densidad de comercio más servicio y la densidad de industria por manzana, que es más precisa para las 24 áreas metropolitanas, ya que la genera el marco de áreas.
ESTRATO 2:
El trabajo realizado con los 236 municipios que pertenecen a este estrato, para el cálculo de las varianzas y totales estimados, se basó en la información disponible del Censo 2005 para
234 de ellos y de los cuales se determinó el total de establecimientos. Posteriormente, la subestratificación se realizó mediante el método de Hidroglou.
Teniendo estos valores, se procedió al cálculo del tamaño de muestra para las UPM a partir de un diseño MAS.
El diseño a aplicar en este estrato será PPT (proporcional al tamaño), pero el tamaño de muestra se calculó asumiendo MAS, buscando corregir una posible sobreestimación originada en la construcción misma del estrato y la poca disponibilidad de información.
Se determinó tomar doce municipios que permiten tener un CV: 12.5% para el total de establecimientos.
Luego se procedió a calcular los tamaños de muestra para las USM en el subestrato de inclusión probabilística. Se determinó que el mayor peso a la varianza total se encuentra en
las UPM con un aporte del 94%; por lo tanto, el tamaño de muestra de las USM no influirá en el CV. Se seleccionarán como mínimo 3 secciones para los municipios con menos de 10
secciones y un máximo de 10 secciones para los municipios con más de 100 secciones.
ESTRATO 3 :
En este estrato sólo se hace cálculo de tamaño para UPM debido a que dentro de éstas se realiza censo de establecimientos. Para determinar los totales y las varianzas se utilizó al igual que en el estrato anterior la información económica del Censo General 2005 filtrando los municipios que pertenecen a este estrato para hacer las estimaciones. El tamaño de muestra final fue 15 municipios, con base en criterios operativos; no se presentan CV debido a que son mayores al 15%.
Debido a que no se puede determinar el aporte de cada estrato al CV global, puesto que la variable utilizada para determinar los tamaños de muestra en el estrato 1 fue el total de ventas y para los estratos 2 y 3, el total de establecimientos, se presentan los CV solamente por estrato.