Cleaning Operations
DISEÑO DEL PROCESAMIENTO
CONSOLIDACIÓN DE ARCHIVO DE DATOS
Recibidos los archivos, la información es descargada del buzón FTP y almacenada en una estructura jerárquica por fecha y región para proceder a desencriptar los datos. Una vez se seleccionan los archivos que se deben cargar en la base de datos, se realiza el proceso de carga utilizando el aplicativo web desarrollado para el proceso de cargue a la Base de datos.
CODIFICACIÓN
Semanalmente se comparte la base de datos con el grupo de muestras y el grupo temático, para realizar la validación de inconsistencias de la información recolectada en campo. El equipo temático tiene acceso al aplicativo web de control de cobertura e inconsistencias, en el cual por medio del módulo de solicitudes puede realizar el ajuste y codificación de las variables sobre la base de datos, teniendo en cuenta las opciones disponibles en las tablas parámetro entregadas al grupo de sistemas.
DICCIONARIO DE DATOS
El diccionario de datos contiene una forma de entender la información almacenada en la base de datos. En este caso, la ENA cuenta con una descripción de cada una de las variables que conforma las tablas, así como, la longitud máxima permitida, el tipo de dato de cada variable y los valores permitidos en las variables que se cargan de acuerdo con un dominio predefinido. La ENA 2019 cuenta con dos diccionarios de datos correspondientes a la primera y segunda aplicación de la encuesta (Ver Anexos 7 y 8).
REVISIÓN Y VALIDACIÓN
Durante el proceso de recolección de información los DMC realizan un primer control de calidad de la información, siguiendo las reglas establecidas en el manual de especificación de consistencia; posteriormente, teniendo en cuenta la información de contexto, se identifican inconsistencias adicionales que son exportadas a tablas en Excel para su análisis por parte del grupo temático y logístico. Entre las herramientas utilizadas para verificar la calidad y consistencia de la información recolectada en campo se tienen las siguientes:
Cobertura de conglomerados: se obtiene de cruzar los conglomerados que hacen parte de la muestra con los conglomerados terminados en campo.
Informe de cobertura en campo versus sistemas: se obtiene de cruzar la información que las sedes y subsedes envían al DANE central en los resúmenes de cobertura, contra la información que es transmitida al área de sistemas.
Errores e Inconsistencias: se obtiene de la realización de diversas pruebas y validaciones temáticas que ayudan a constatar que la información recolectada en campo y los cálculos realizados sean coherentes. Con estas validaciones se verifican los datos que se salen de los estándares establecidos, tales como rendimientos altos o bajos, capacidad de carga animal alta o baja, cultivos transitorios presentes sin pasados, lotes sin cultivos, entre otros.
Entre las herramientas tecnológicas utilizadas por el grupo de trabajo ENA para el análisis y validación de la consistencia de la información se tienen: tablas, gráficos comparativos o gráficos con información histórica en Excel, así como, el aplicativo de cargue, validación y control de cobertura.
DISEÑO DE INSTRUMENTOS DE EDICIÓN (VALIDACIÓN Y CONSISTENCIA) E IMPUTACIÓN DE DATOS
La ENA cuenta con el manual de especificación de consistencia que describen las características y condiciones que deben cumplir cada una de las variables que presenta la encuesta y las reglas para la validación de la información recolectada en campo.
Adicionalmente, luego del proceso de recolección, se realiza una revisión de la consistencia de la información y en los casos en que se detectan valores atípicos y posibles errores en las respuestas, se hace una verificación directamente con el productor(a) y a partir de esta, se procede a la corrección en la base, si es necesario.
En los casos en los que no es posible contactar al productor, el componente temático a partir de su conocimiento especializado, genera reglas lógicas de edición e imputación de la información que fueron descritas en detalle en el numeral 2.1.9.
El manejo de la no respuesta total como se mencionó anteriormente, está dirigido a la corrección del factor de expansión, y los vacíos de información son verificados a partir del flujo del aplicativo de recolección de la encuesta.
DISEÑO PARA LA GENERACIÓN DE CUADROS DE RESULTADOS
Para generación de los cuadros de resultados se tiene en cuenta los diseños entregados por el componente temático que se ajustan con respecto a la información histórica, luego se elaboran programas en formato SAS de acuerdo con la metodología estadística de estimación a partir del diseño muestral, dependiendo de su desagregación geográfica o temática, incluyendo la estimación y sus correspondientes medidas de precisión.
Los requerimientos funcionales para el desarrollo de las rutinas o los programas que generen los cuadros de salida de la encuesta están descritos en el manual de procesamiento de la encuesta.
DISEÑO DE LA DIFUSIÓN
DISEÑO DE LOS SISTEMAS DE SALIDA
Siguiendo los formatos de calidad de la entidad se adelanta la elaboración del boletín, los anexos y la presentación de los resultados de la encuesta. Estos productos cuentan con varios niveles de revisión y aprobación, siguiendo lo establecido en el procedimiento difusión de resultados de operaciones estadísticas en portal web DANE y según lo establecido en la Resolución 3121 de 2018.
ADMINISTRACIÓN DEL REPOSITORIO DE DATOS
La encuesta cuenta con un repositorio de datos que es un depósito o archivo centralizado donde se almacena y se mantiene información digital de la ENA siendo un servidor de ORACLE de acceso protegido con el fin de garantizar la seguridad de la información. Este repositorio dispone de un sistema de respaldo y mantenimiento preventivo y correctivo que permite la recuperación de la información en caso de ser necesaria.
Los microdatos de la encuesta son anonimizados siguiendo lo establecido en el manual de anonimización de la base de datos de la ENA y dispuestos en el Archivo Nacional de Datos (ANDA) en el siguiente enlace: http://microdatos.dane.gov.co/index.php/catalog/MICRODATOS/about_collection/44.
PRODUCTOS E INSTRUMENTOS DE DIFUSIÓN
Los entregables de la investigación son el boletín, los anexos y la presentación que se encuentran publicados en la página web del DANE en el siguiente enlace: https://www.dane.gov.co/index.php/estadisticas-por-tema/agropecuario/encuesta-nacional-agropecuaria-ena.
En la página web del DANE se publicó para la ENA 2019: un boletín, una presentación y 23 anexos en medio magnético asociados al módulo de energía, al módulo de ciencia tecnología e innovación y al módulo central en las temáticas de cultivos e inventario pecuario y la caracterización de las UPA y del productor(a). De forma conjunta con los entregables de la ENA 2019, se publicaron los resultados de la ENA 2018 incluyendo el boletín, la presentación y un anexo en medio magnético, correspondiente al componente de cultivos e inventario pecuario.
ENTREGA DE PRODUCTOS
La entrega de productos se realiza en la página web de DANE (boletín, anexos y presentación) de acuerdo con el calendario establecido y en el Archivo Nacional de Datos (ANDA) se disponen los microdatos anonimizados.
De otro lado, se generaron cuadros de salida provisionales que pueden consultarse en el siguiente enlace: https://www.dane.gov.co/index.php/estadisticas-por-tema/agropecuario/encuesta-nacional-agropecuaria-ena
Adicionalmente, la ENA cuenta con un geovisor que presenta los resultados de manera espacial y el DANE realiza un comité externo con los usuarios de la información en el cual se socializan los resultados de la encuesta, se aclaran inquietudes y reciben comentarios, observaciones y sugerencias para el desarrollo de la próxima publicación.
El geovisor de los resultados de la ENA se puede consultar en el siguiente enlace: https://geoportal.dane.gov.co/geovisores/territorio/resultados-ena/?lt=4.456007353293281&lg=-73.2781601239999&z=5.
El boletín y los anexos cuentan con una ficha metodológica que facilitan y orientan la lectura, interpretación y uso de la información. Así mismo, los anexos cuentan con notas aclaratorias para entregar al usuario medidas de calidad de las estimaciones y facilitar el análisis y consulta de la información.
ESTRATEGIA DE SERVICIO
La orientación y soporte a los usuarios en caso de dudas e inquietudes se adelanta en el comité externo antes descrito o mediante los canales de atención al ciudadano implementados por la entidad (atención presencial, atención telefónica, atención virtual o atención por correspondencia)33. Las consultas a realizar mediante correo electrónico pueden dirigirse al correo: contacto@dane.gov.co.
ANONIMIZACIÓN DE MICRODATOS
VARIABLES QUE SE EXCLUYEN DE LA BASE DE DATOS
Con el fin de disponer a los diferentes usuarios de la ENA los microdatos de la encuesta, el DANE ha desarrollado una serie de metodologías para realizar los procesos de anonimización de las bases de datos, que garantizan que se preserve la reserva estadística de las fuentes y que no hagan posible deducir de ellos información alguna de carácter individual.
La metodología de anonimización aplicada a la base de datos de la ENA contempla varios procesos que se describen a continuación.
Inicialmente se elimina de la base que se dispondrá al público, varios tipos de variables, entre ellas: las variables de identificación del conglomerado, la UPA, de los productores o de quien suministre la información, cuando no lo hace el productor directamente (administradores, familiares, gerentes, etc.). Esto incluye datos de coordenadas geográficas, códigos catastrales, nombres, números de identificación, direcciones, números de teléfono, etc.
De igual forma se eliminan variables operativas como las fechas del día de la entrevista, de cargue, de envío, nombres y códigos del personal de recolección, encuestados, supervisor, analista, región, etc.
Otras variables que se eliminan son el nombre y código del municipio, debido a que, hay características de los productores que con un cruce de varias variables se pueden identificar, especialmente cuando son cultivos poco comunes.
Adicionalmente, el tamaño de la muestra de la ENA en cada municipio es pequeño, por lo cual las inferencias que se realicen a nivel de municipio no son confiables. Al eliminar el nombre y código del municipio de la base de datos garantizamos que los usuarios no generen información que pueda conducir a resultados equivocados, debido a que, se generan con muy pocas fuentes de información.
VARIABLES RECODIFICADAS
Dado que, la base de datos de la ENA está conformada por varias tablas dependiendo de la unidad a trabajar, conglomerado, UPA, lote, maquinaria o tipo de cultivo, el cual dependiendo si son cultivos transitorios, permanentes, frutales dispersos o pastos, tendrá asociadas diferentes variables, se debe tener un cuidado especial con las variables "LLAVE" que permiten relacionar las diferentes tablas.
En la base original, la llave que permite encadenar las diferentes tablas, se construye a partir de la identificación del conglomerado, el cual a su vez esta codificado según el código del departamento, el municipio y un consecutivo al interior de cada municipio.
La llave que conecta la UPA es la del conglomerado a la cual pertenece, más un consecutivo de UPA al interior del conglomerado y al del lote, un consecutivo al interior de cada UPA.
Debido a que el código del municipio se elimina de la base de datos, todas estas llaves, la de conglomerado, UPA y lote, se deben recodificar, pero con la misma lógica de encadenamiento de un lote al interior de la UPA, y la UPA al interior del conglomerado.
La metodología consiste en transformar la variable anidada que actúa como llave para las diferentes tablas, conglomerado, UPA, lote, por otras que desempeñen la misma función pero que no permitan identificar el conglomerado en mapas al cruzarlo con información de otras fuentes. Esta transformación se realiza utilizando algoritmos para generar códigos consecutivos alfanuméricos ordenados aleatoriamente. La oficina de sistemas conserva una correlativa entre las variables recodificadas y las originales.
Por comparabilidad con años anteriores se presentan variables similares, por ejemplo, para los años 2010 - 2016 el conglomerado es el símil del segmento y la UPA del PSM. Las llaves principales y las variables de código de UPM, segmento, PSM, conglomerado y UPA se deben recodificar, de tal forma que, al cruzar la base de datos con otras bases de información no sea posible identificar al productor agropecuario. Esta recodificación se realiza en todas las tablas para permitir el respectivo cruce entre estas.
VARIABLES CONTINUAS CATEGORIZADAS
Adicionalmente en la encuesta se adelanta una categorización de las siguientes variables:
• Área total de la Unidad de Producción Agropecuaria.
• Cantidad de cabezas de ganado total, machos y hembras, así como, las variables de grupos de edad del ganado y cualquier variable asociada al número de cabezas de ganado, con la cual se pueda calcular la cantidad total de ganado.
• Cantidad de otras especies, total de machos y hembras, así como, sus variables desagregadas machos reproductores, hembras preñadas y la cantidad de total por destino.
Con el fin de permitir el análisis por tamaño de la UPA, salvaguardando la reserva estadística, se realiza un proceso de transformación de estas variables de dos maneras diferentes.
Las variables área total de la UPA, se transforman de variable continua a variable categórica. Se utiliza la metodología de estimación de "conglomerado ponderado", que toma la proporción del ganado de acuerdo con la proporción del área en pastos que este dentro de la UPA para las variables cantidad de cabezas de ganado total, machos y hembras, así como, las variables de grupos de edad del ganado y cualquier variable asociada al número de cabezas de ganado en la UPA.
De esta forma en la base de datos anonimizada, todas las variables que reportan cantidad de cabezas de ganado, se recalculan de acuerdo a la proporción que les corresponda dentro de la UPA. La ponderación en este caso consiste en multiplicar cada variable por el ponderador de pasto dentro de la UPA, el cual es la que finalmente se utiliza en el proceso de estimación. También se recodifica la variable total de cabezas, para efectos de permitir el análisis de información por esta variable.
Para las variables de cantidad de otras especies totales, machos y hembras, así como, sus variables desagregadas machos reproductores, hembras preñadas y la cantidad de total por destino en las categorías equina, mular, asnal y bufalino, se remplazan por nuevas variables donde se muestren la cantidad de animales de la especie que le corresponden a la UPA ponderada, en este caso, se deben multiplicar por el ponderador de pasto dentro de la UPA.
Para las variables cantidad de maquinaria agrícola y pecuaria del módulo de energía se categorizaron para evitar la identificación de los productores de lista.
La encuesta cuenta con el manual de anonimización de la base de datos de la ENA que describe con mayor detalle las actividades a desarrollar en el proceso de anonimización y permite que la Oficina de Sistemas genere las bases de datos anonimizadas y las entregue para su verificación y disposición al público en general.
VERIFICACIÓN DE LA ANONIMIZACIÓN DE MICRODATOS
Los microdatos anonimizados son remitidos a la coordinación del componente temático y estadístico con el fin de verificar que se respete la reserva estadística y autorizar la entrega de la información como se indica en el manual de anonimización de los microdatos de la ENA 2019.
DISEÑO DE LA EVALUACIÓN DE LAS FASES DEL PROCESO
La evaluación de la operación estadística se realiza de manera continua para cada aplicación, durante el desarrollo de las reuniones con los grupos de trabajo de la encuesta y teniendo en cuenta la información suministrada en las actividades de seguimiento y control.
A partir de las evaluaciones se identifican propuestas mejora a ser implementadas en las versiones futuras de la operación estadística que se encuentran recopiladas en las actas de las reuniones de los grupos de trabajo.
Entre los mecanismos de control de calidad de la encuesta, los grupos de trabajo adelantan actividades permanentes de monitoreo, seguimiento y evaluación en cada una de las fases del proceso estadístico como se describe a continuación:
Detección y análisis de requerimientos: el seguimiento lo realiza el personal de DANE central mediante la plataforma Orfeo de la entidad en la cual se verifica la respuesta a los requerimientos realizados por los actores externos mediante oficios. Igualmente como parte del seguimiento, se utiliza la matriz para la identificación de necesidades de información estadística para la caracterización de grupos de interés del DANE.
Diseño y construcción: durante las fases de diseño y construcción, el personal de DANE central realiza pruebas de escritorio que permiten verificar el adecuado funcionamiento del aplicativo de captura y la aplicación de las reglas de validación y consistencia.
Recolección o acopio: el operativo de campo cuenta con un seguimiento en dos niveles. El seguimiento adelantado por el DANE central y el realizado por el grupo operativo en las territoriales. Los supervisores realizan seguimiento al operativo y al reporte de información y se cuenta con el aplicativo de seguimiento de georreferenciación en operativo, el aplicativo Web de seguimiento al desarrollo de la ENA y los formatos utilizados para el seguimiento y control a las actividades realizadas en el operativo como se describió en detalle en el capítulo de diseño de recolección.
Procesamiento y análisis: el seguimiento lo realiza el personal de DANE central, mediante la revisión permanente de la consistencia de la información. Las actividades desarrolladas en este componente se encuentran descritas en el procedimiento de análisis de contexto y consistencia de la información.
Difusión: los comités externos e internos son organizados por el personal de DANE central y se constituyen en la estrategia utilizada para el seguimiento a la difusión. En dichos comités los participantes revisan y hacen aportes a los resultados de la encuesta.
MONITOREO Y SEGUIMIENTO
El operativo de campo cuenta con un seguimiento en dos niveles. El seguimiento adelantado por el DANE central y el realizado por el grupo operativo en las territoriales con el fin de realizar el manejo de las novedades operativas y garantizar la calidad de la información.
El DANE central realiza seguimiento a la recolección de información y a la cobertura según lo indicado en el procedimiento de seguimiento y control a la toma de información y a la cobertura. Igualmente, identifica las inconsistencias que son remitidas a las territoriales para revisión y ajuste de los datos cuando se requiera. Como medida de control los grupos del DANE central con apoyo del Call Center del Directorio Estadístico realizan llamadas a los productores con el fin de verificar y validar la información.
Los supervisores por su parte realizan seguimiento al operativo y al reporte de información. Los formatos utilizados para el seguimiento y control a las actividades realizadas en el operativo son los siguientes:
- Formato E02 (Ubicación en el Conglomerado): permite describir la forma de acceso al conglomerado, incluyendo los sitios que sirven de referencia (escuelas, ríos, iglesias, entre otros) para la ubicación en la zona.
- Formato E03 (Control de aprovechamiento de la tierra y número de lotes): permite identificar el aprovechamiento y uso del suelo el día de la entrevista, área de los lotes, área de las UPA y sumatoria de todas las UPAs del conglomerado.
- Cuestionarios ENA 2019 (DMC - impreso): el encuestador es quien diligencia los cuestionarios, creando una encuesta por cada UPA visitada.
- Formato S01 (Control de Conglomerados Terminados): busca garantizar la cobertura, control del operativo y cantidad de información recolectada de cada conglomerado realizado por su grupo de trabajo.
- Formato S02 (Control de Entrega de Información): tiene por objetivo garantizar la cobertura, control del operativo, la cantidad de encuestas (UPAs) recolectadas, enviadas y entregadas por parte del (la) supervisor (a) al analista de información de cada conglomerado realizado por el grupo de encuestadores.
- Formato CS-01 (Entrega de Materiales): el formato permite llevar un control sobre los materiales y equipos a utilizar en el operativo de la ENA.
De otro lado la ENA, cuenta con el aplicativo de seguimiento de georreferenciación en operativo que permite visualizar rápidamente, el trabajo de los encuestadores respecto a la georreferenciación de las Unidades Productivas Agropecuarias que se encuentran dentro de la unidad de medida de mapeo de la muestra que es el conglomerado.
El aplicativo Web de seguimiento al desarrollo de la Encuesta Nacional Agropecuaria (ENA), utiliza los servicios disponibles de Google Maps y las imágenes (tiles) dispuestos por la operación estadística; así como la información en tiempo real del trabajo de campo de los encuestadores, para la optimización de los recursos y el mejoramiento de la calidad del dato tomado en campo.
El aplicativo web contiene las siguientes funcionalidades generales:
- Consulta por entidad territorial
- Búsqueda
- Medición de distancias y áreas (generales)
- Descarga de puntos georreferenciados
El aplicativo permite generar reportes y alertas de los puntos de posicionamiento del encuestador que no se encuentran dentro del polígono con un rango de aceptación de 100 metros. Estos reportes se envían al grupo de logística quien se contacta con las territoriales y coordinadores para dar aviso y corregir las encuestas que no coinciden geográficamente.
De otro lado, el aplicativo web de control de cobertura y seguimiento al operativo, permite a los distintos usuarios acceder a reportes de tipo operativo para poder realizar una validación y seguimiento de la información recolectada en campo durante el operativo de la encuesta y así tomar las mejores decisiones en el avance de este.
NORMAS, ESPECIFICACIONES O REGLAS DE EDICIÓN E IMPUTACIÓN
La ENA 2019 cuenta con los manuales de especificaciones de consistencia del primer y segundo semestre de 2019 que describen las características y condiciones que deben cumplir cada una de las variables que presenta la encuesta y las reglas para la validación de la información recolectada en campo.
Partiendo de las reglas de validación y consistencia y los cuestionarios antes descritos, el grupo de sistemas elaboró los aplicativos de captura de la información para el primer y segundo semestre que posteriormente, fueron revisados mediante pruebas de escritorio que realizan el grupo temático y logístico de la investigación.
De otro lado, tradicionalmente en la ENA no se realiza imputación de información, dado que, el programa de captura no permite que quede información relevante sin diligenciar y cuenta con varios controles para garantizar la completitud de los datos recolectados.
Existen varios puntos en el proceso de recolección y validación que detectan inconsistencias o falta de información, las cuales, en la medida de lo posible, se corrigen o se obtiene la información mediante otros procesos como verificación telefónica con el productor(a).
Sin embargo, para la ENA 2019, fue necesario realizar dos procesos de imputación a saber:
El primero se realizó con el objetivo de unificar las muestras del primer y segundo semestre de 2019 para facilitar las estimaciones de las variables que se deben sumar en los dos semestres con el fin de obtener el total año y de esta forma, no tener que manejar factores de expansión diferenciados por semestre.
El proceso consistió en imputar la información de las UPA de los conglomerados que no se pudieron realizar en algún semestre, pero si en el otro. De esta forma para el primer semestre de 2019 se imputaron 221 UPA y para el segundo 176 UPA.
El proceso de imputación se realizó para el capítulo de caracterización y los capítulos agrícola y pecuario, con base en la información reportada por la fuente en el semestre que si respondió. Debido a este proceso de imputación inicialmente se publicaron los resultados del primer semestre con carácter provisional y posteriormente, se entregaron los resultados definitivos de primer semestre con la entrega de resultados segundo semestre y total año. En la sección 2.2.12. (Ajustes de cobertura por no respuesta), se explica con más detalle este proceso.
Para 2019, también se realizó un proceso de imputación para algunas variables del módulo de energía, debido a que, en el programa de captura, no se obligó a que estos campos tuvieran respuesta, y al cruzar con otras variables se identificó que en algunas fuentes no era consistente el reporte de variables del módulo de energía con otras variables. El valor del indicador de imputación para este módulo es de 0,56% y para las demás variables de la encuesta no se realizó imputación.
Estos procesos de imputación para 2019 generaron un impacto positivo y permitieron que los procesos de estimación de total año fuesen más sencillos, al tener la misma muestra para los dos semestres, y manejar un único factor de expansión para las estimaciones de total año.
Respecto a la imputación realizada en el módulo de energía con este proceso se entregó información más completa de las variables del módulo, asociadas al uso de energéticos, generando estimaciones más consistentes con el contexto.