Estimates of Sampling Error
INTERPRETACIÓN DE LA PRECISIÓN
Uno de los principales criterios para determinar la calidad de la estimación de un parámetro es la variabilidad que tienen los posibles resultados de dicha estimación. Esta variabilidad se conoce como varianza del estimador, la cual depende de muchos factores, como el diseño muestral, el tamaño de la muestra, el parámetro que se desea estimar, los niveles de desagregación, entre otros.
La varianza se calcula básicamente como la suma del cuadrado de las distancias entre los diferentes valores de una variable y su valor promedio, en este caso, los diferentes valores corresponden a las posibles estimaciones, las cuales, a su vez, provienen de las posibles muestras. Posteriormente, se toma el cuadrado de las distancia para evitar que éstas se anulen entre sí y se disfrace la verdadera dispersión de los datos; por esta razón, la varianza proporciona la variabilidad en unidades al cuadrado, es decir, personas al cuadrado, ganado al cuadrado o hectáreas cuadradas, lo que no permite una comprensión fácil de esta magnitud.
La raíz cuadrada de esta varianza es la que se denomina desviación estándar de la distribución o error estándar. Esta medida de dispersión tiene la ventaja que la unidad de medida de dispersión corresponde a la unidad de la variable de interés, se establece en términos de personas, hectáreas o pesos, aunque queda la dificultad de saber si una desviación es grande o pequeña; así, por ejemplo, una variabilidad de un millón de pesos puede ser muy grande si se habla del promedio de ingresos de los empleados, pero es absolutamente pequeño si se determina sobre el total del volumen de ventas en la industria del país.
El coeficiente de variación estimado, más conocido como error de muestreo, corresponde al valor que indica el grado de precisión con el cual se está reportando un resultado de las estimaciones de los parámetros definidos con anterioridad. Es decir, se trata de la magnitud de la incertidumbre de una estimación. Se define como la variación porcentual del error estándar a la estimación central, es decir, se trata del cociente entre el error estándar del estimador y el estimador multiplicado por 100.
Aunque la varianza, el error estándar y el coeficiente de variación miden la magnitud de la variabilidad de la distribución muestral del estimador, es decir, lo que comúnmente se denomina error de muestreo, el coeficiente de variación tiene la ventaja de proporcionar esta medida en términos porcentuales, por ello se constituye en una medida común para estimaciones.
Se suele considerar que el resultado de una estimación es bueno si su coeficiente de variación es menor de 5%; aceptablemente práctico, entre 5% y 10%; de baja precisión si está en el rango mayor de 10% y menor de 15%; y no útil si es mayor a 15%.
Para entender mejor el significado y los diferentes valores que toman los coeficientes de variación en los cuadros presentados, se debe tener en cuenta que el diseño de la muestra se realizó para obtener estimaciones con alta precisión a nivel nacional por entidad. Las estimaciones para otros niveles de desagregación (como sector) están sujetas a que su precisión no necesariamente sea buena y por tanto el dato no sea confiable.
Es por esta razón que en algunos cuadros aparece, por ejemplo, el total de una variable a nivel nacional y por alguna categoría de análisis con coeficientes de variación pequeños, mientras que para otras categorías de la misma variable los cve son muy altos, en ocasiones del 30 % e incluso mayores del 100 %. En estos casos, el DANE publica la cifra aunque no sea confiable, básicamente para que en los cuadros de salida la información de los totales se observe consistente y porque en muchos casos, el usuario por operaciones aritméticas simples puede deducir el valor correspondiente a esa estimación. Sin embargo, es muy importante que los usuarios de la información sean conscientes del bajo nivel de precisión que tienen estas estimaciones.
Esta situación puede darse por varias causas. Por ejemplo, cuando el fenómeno estudiado ocurre con gran frecuencia en algunas de las categorías de la variable de clasificación, por lo cual la estimación para dichas categorías es de alta calidad; pero puede ocurrir que para otras categorías en las que el fenómeno no es frecuente, la estimación no es buena, pues el tamaño de muestra no es suficiente. También puede obedecer al hecho de que en algunas de estas categorías el fenómeno es muy variable mientras en otras es más uniforme, lo que genera menor varianza en las estimaciones.
Todos los resultados que se producen se presentan en cuadros de salida, donde cada estimación tiene su respectivo cve o error muestral. En general, a medida que se incrementa la desagregación de las estimaciones, según las variables de clasificación, el error muestral se incrementa, básicamente porque el tamaño de muestra que incide sobre estos grupos es menor.