Cleaning Operations
La tecnología utilizada para el desarrollo del sistema para la captura de información de la EM-2014, se enmarca dentro de la utilización de dispositivos móviles de captura, el cual debe integrar aspectos como el diseño, instalación y obtención de datos de los dispositivos y cargue de archivos a la base de datos; el uso de esta tecnología agiliza la recolección permitiendo aplicar en terreno las especificaciones de validación y consistencias definidas en la encuesta, garantizando la calidad, oportunidad y confiabilidad de la información recolectada en el operativo.
Para facilitar la operación, administración y mantenimiento del sistema se elaboran los manuales de usuario y de sistemas respectivos, además los componentes de la herramienta informática propuesta, tienen como finalidad facilitar la captura, transmisión y la producción de reportes de cobertura.
Dentro de los mecanismos de seguridad de la información, a nivel privacidad e integridad de los datos, cada una de las encuestas realizadas en el dispositivo es encriptada en campo para que los paquetes de contenido puedan ser descifrados una vez se han transmitido. En el proceso de cargue de información a la base de datos, de igual manera se establece un procedimiento para la obtención de copias de seguridad de la información en cada uno de los dispositivos, con el fin de mitigar riesgos de pérdida de información, mediante la realización de copias de respaldo que permitan su recuperación ante un eventual incidente.
A nivel base de datos se manejan roles de usuario para asegurarse que reciban los privilegios adecuados para acceder a un objeto o conjunto de objetos, así mismo se realizan copias de respaldo de información del servidor para salvaguardar la información cargada a la base de datos.
La base de datos es dispuesta continuamente al equipo temático en un servidor definido para la investigación y una vez la base de datos es consistente para poder disponer de ella al público en general, es necesario el proceso de anonimización de microdatos, cuyo objetivo es proveer los datos desagregados, lo que implica la eliminación del máximo riesgo de identificación de la fuente, con el menor daño a la utilidad de los datos. En este proceso el grupo temático de la investigación debe establecer la técnica de anonimización más apropiada a aplicar a cada una de las variables sujetas al proceso de anonimización, esta técnica es implementada por parte de la Oficina de Sistemas, quien finalmente dispone al equipo temático la base de datos anonimizada para revisión y aceptación.
Para este proceso se determina no mostrar en la base de datos algunas variables correspondientes a la identificación de las viviendas como son la dirección, barrio, número telefónico, etc. y variables de las personas tales como nombre y apellido, fecha de nacimiento, nombre de la empresa donde trabaja, entre otras.
PROCESOS GENERALES DEL SISTEMA
La generación de los formularios para dispositivos móviles de captura se utilizó un diseñador de encuestas, el cual es una herramienta que permite al usuario crear encuestas de acuerdo a necesidades específicas utilizando para la captura de datos un dispositivo móvil que utilice sistema operativo Android, permitiendo al encuestador realizar de forma secuencial las preguntas que componen el formulario. El uso de estas herramientas ha mejorado de manera sustancial la recolección de información, ya que involucran los procesos de validación y consistencia desde el momento de introducir los datos de las encuestas.
El programa implementado permite la captura y validación inicial de los datos para su posterior envío al DANE Central, donde se efectúan otros procesos de consolidación y validación de la información permitiendo mayor oportunidad y calidad de la misma.
PROCESOS DE DISEÑO Y CAPTURA DE FORMULARIOS
Registrar Solicitud de Creación de Formularios. Entrega de los documentos con los insumos para la encuesta por parte del componente temático de la investigación.
Análisis de Factibilidad con la Herramienta de Diseño. Se evalúa la viabilidad de implementación del formulario en el diseñador de encuestas, según la documentación entregada (Formulario y normas de validación y consistencia).
Asociar Reglas de Validación. Se implementan las reglas de validación de acuerdo al documento de especificaciones y consistencia, se validan entre otras, Rangos, Tipos de Datos, Flujo de datos, Operaciones Aritméticas.
Definir Reglas de Validación Cierre de Formulario. Las reglas de validación de cierre de encuestas involucran el ingreso de preguntas de control de flujo de la encuesta, a nivel de vivienda, hogar, personas y capítulos específicos, en donde a través de especificaciones se controla el acceso a determinados capítulos del formulario.
Compilar Formulario. Una vez elaborado el formulario se puede realizar la compilación del mismo con el fin de validarlo y verificar que cumpla con las funcionalidades definidas en las especificaciones.
Ejecutar Plan de Pruebas. Una vez diseñados y modelados los procesos para la captura de información se procede a realizar un plan de pruebas, que permita evaluar el formulario y determinar su salida a campo, mediante pruebas de escritorio y consistencia de datos.
Implementar muestra. Permite cargar en el formulario la información de los segmentos y manzanas a recolectar definidos en la muestra.
Generar Instaladores. Los instaladores son generados por ciudad o municipio, de acuerdo a las especificaciones diseñadas por el componente logístico de la investigación.
Disposición y Descarga de Aplicativos en FTP. Los instaladores son dispuestos en formato comprimido (rar) y posteriormente descargados por parte del apoyo de sistemas del FTP asignado, el cual tiene un nombre de usuario y una clave de autenticación para acceder a los buzones.
Captura en Campo. Una vez digitados los datos en los dispositivos móviles de captura - DMC, se debe generar un backup de la información recolectada diariamente por cada encuestador, el supervisor debe realizar el proceso de validación y consistencia de la información para el proceso de cierre de cada una de las encuestas, la información debe ser entregada al apoyo informático.
Transmisión de Información vía FTP. Una vez capturada la información diariamente se comprime y se dispone en el buzón FTP creado, para su posterior análisis y procesamiento.
PREPARACIÓN DE AMBIENTE ORACLE PARA EL PROCESO DE CONSOLIDACIÓN Y CARGUE DE INFORMACIÓN
Creación de la Base de Datos (Oracle). Es necesario contar con el motor de bases de datos ORACLE, en un esquema creado para la investigación que permite el cargue y almacenamiento general de los datos. La base de datos para la investigación asignada, es una base de datos relacional en donde cada tabla corresponde a un capítulo de la encuesta, existe un único registro por vivienda.
Se debe asignar el número de la encuesta asociado a la investigación y definir los tipos de datos, texto de la pregunta, listas de valores asociadas, subpreguntas entre otros. De igual manera definir los formularios y subformularios: para las encuestas a hogares generalmente incluyen los tres niveles básicos para la toma de información: vivienda, hogar y personas. Cada uno de los niveles relacionado consta de uno o varios capítulos de acuerdo a la temática. Opcionalmente se establecen los flujos y validaciones de todas y cada una de las preguntas.
En la estructura del formulario se debe asociar a cada pregunta el código equivalente con el código de pregunta en Oracle, incluyendo el número de formulario.
Transmisión y envío de información. Diariamente se envía información de encuestas completas a DANE Central. Para este proceso se consolida la información y se realiza la transmisión de datos de la encuesta a través del FTP (File Transfer Protocol), que es un protocolo de red para la transferencia de archivos entre sistemas conectados a una red, basado en la arquitectura cliente-servidor. Desde el equipo cliente, las ciudades o municipios se conectan a un servidor para descargar archivos desde él o para enviarlos.
CARGUE DE DATOS AL SISTEMA (ORACLE)
Consolidación de archivos. Recibidos los archivos, la información es almacenada en una estructura jerárquica que permite realizar la desencripción de los datos. Una vez se seleccionan los archivos que se deben cargar en la base de datos, se realiza el proceso de carga utilizando una transformación diseñada con Pentaho Data Integration.
Cargue de información. Al iniciar el proceso de carga se verifica la identificación única para cada encuesta, garantizando que no exista duplicidad en la información, y se asigna un directorio único a cada encuesta. Una vez cargados los datos, se genera un log que indica el estado y/o posibles fallas presentadas durante el proceso y se procede a hacer la transposición de toda la información, proceso que permite poblar las tablas creadas en la base de datos para cada capítulo de la investigación. De esta manera cada tabla está relacionada a cada uno de los niveles que se manejan dentro de la encuesta (vivienda - hogar - persona).
Consistencia de información. A través del desarrollo de sentencias Oracle, se identifican posibles inconsistencias por duplicidad a nivel de personas y problemas de selección de segmentos a trabajar. Se generan reportes de cobertura y frecuencias que permiten realizar constantemente el monitoreo y control a la información que se ha recolectado y cargado en las bases de datos. Posteriormente en el esquema diseñado en ORACLE se crean procedimientos para validar la información de la base de datos, flujos, variables sin información, rangos y estructura, con el fin de obtener una base de datos consistente.