Cleaning Operations
TRANSMISIÓN DE DATOS
Mediante el programa de captura del formulario electrónico, se editan los datos de cada una de las empresas y se verifica su consistencia. Cabe anotar que este proceso es restringido según los usuarios y los permisos establecidos. Una vez la empresa termina la digitación de su información, la seguridad del sistema no le permite modificarla, y únicamente el recolector en el proceso de crítica podrá ingresar los cambios luego de haber establecido comunicación con la fuente, para aclarar posibles inconsistencias o faltantes de información. Después de aprobada la información por parte del monitor, el sistema no le permitirá tener acceso a la información para ser modificada y pasará al perfil del analista del DANE Central para la correspondiente verificación y análisis del microdato; estos procesos se realizan en línea y la información se aloja en los servidores del DANE.
Cabe aclarar que, como se mencionó en secciones anteriores, el formulario pasa por unas pruebas antes de salir a recolección, para asegurar que todo el proceso de diligenciamiento, guardado y demás funcionalidades, estén en correcta ejecución. Adicionalmente, el aplicativo cuenta con ventanas emergentes que le avisan al usuario si la información fue guardada correctamente, donde posteriormente el usuario podrá hacer la descarga del formulario en formato pdf con la información diligenciada. Igualmente, con el fin de proteger la información de posibles fallas en el formulario en línea, se realiza una descarga semanal de las bases.
CONSOLIDACIÓN DE ARCHIVOS DE DATOS
La descarga de los siete capítulos del aplicativo la realiza la Oficina de Sistemas a solicitud del equipo de la Dirección de Recolección y Acopio (DRA) para remisión al equipo de la Dirección de Metodología y Producción Estadística (DIMPE). Cada capítulo es descargado en un archivo aparte en formato .xlsx para ser trabajados desde Microsoft Excel. Para hacer la revisión y validación de la información como para la publicación en ANDA, los archivos son procesados mediante rutinas diseñadas en SAS por el GIT Diseños Muestrales para realizar la consolidación de los capítulos en un solo archivo. Para la entrega de las bases a Sala de Procesamiento Especializado Externo - SPEE y entrega a Cuentas Nacionales, se realiza la entrega de las bases como originalmente son entregadas por DRA, con la diferencia que se adiciona la variable construida TIPOLO que clasifica la tipología de innovación de acuerdo con la respuesta de la empresa en el capítulo I.
CODIFICACIÓN
El nemotécnico con el que se denomina cada campo del formulario se determina como un sistema de coordenadas en el que se establece como nombre de la variable, su ubicación en el formulario respecto al capítulo en el que se ubica, el número de pregunta, la fila y la columna. Ejemplo: la variable ubicada en el capítulo 5 (que dentro del formulario se encuentran numerados con números romanos, es decir, V), en la pregunta 2 y en la segunda opción de respuesta ubicada de manera vertical, se denominará V2R2C1.
Es posible que, durante el tiempo, el formulario pueda presentar ajustes en su diseño, que impliquen la reubicación de preguntas en otro módulo o en otro orden. No obstante, para garantizar la trazabilidad, se conserva el mismo nombre de la variable asignada desde el inicio. Cuando ingresan nuevas variables, se continúa la codificación en el orden actual que deberá corresponder al nemotécnico explicado anteriormente.
Es de aclarar que el cuestionario no cuenta con variables con respuesta abierta ni realiza su recolección en formularios impresos.
DICCIONARIO DE DATOS
El diccionario de datos para la EDITS se construye basado en los archivos de especificaciones de validación que se elaboran para cada uno de los capítulos. Estas validaciones permiten documentar las características de las variables que son empleadas en la operación estadística con los siguientes campos:
• Denominación: se relaciona el nombre de la variable.
• Campo: se relaciona el tipo de la variable (número, carácter y longitud).
• Descripción: se relaciona el contenido de la variable como se enuncia en el formulario.
• Condición para que sea consistente: se relaciona las especificaciones que debe cumplir la variable para que sea válida.
• Mensaje si no es consistente: se relaciona el aviso que debe presentar el aplicativo cuando la variable no es consistente.
• Tipo de error: se relaciona el tipo de error que tiene la variable cuando no es consistente y la acción a realizar para su corrección.
• Obligatoriedad de diligenciamiento u observación: se relaciona con cuáles valores debe estar diligenciado el campo o las condiciones adicionales que debe cumplir.
ANONIMIZACIÓN DE MICRODATOS
En las bases que se comparten en la Sala de Procesamiento Especializado Externo (SPEE), el protocolo de anonimización consiste en eliminar las variables de identificación de las fuentes (tales como NIT, razón social, etc.) y la información económica es publicada tal como se recolectó, teniendo en cuenta que los usuarios firman acuerdos de confidencialidad en el manejo adecuado de la información estadística. Cabe destacar que la información disponible en la SPEE cumple con los protocolos de anonimización dispuestos por el DANE para garantizar la confidencialidad y uso de los datos sin violar la reserva estadística, de conformidad con el Código de Buenas Prácticas para las Estadísticas Oficiales. Además, cuenta con un equipo de profesionales encargados de verificar que los resultados generados por los investigadores preserven en todo momento la reserva estadística.
Con el fin de monitorear el buen uso de la información por parte de los usuarios que acceden a la sala, se requiere que soliciten el acceso enviando un correo a contacto@dane.gov.co con la siguiente información:
Nombre del proyecto de investigación
Objetivo
Justificación
Entidad o Institución Universitaria
Periodo de la información, variables y base de datos requerida
Mediante este correo se realiza solicitud oficial, que contará con un máximo de 10 días hábiles para brindar respuesta oficial de acceso a los datos en alguna de las territoriales, centros de datos o en la Sala de Procesamiento Especializado Externo del DANE Central.
Por otra parte, para las bases publicadas en la página web en el portal de Acceso a Metadatos y Microdatos anonimizados (ANDA), el protocolo de anonimización es mayor, debido a que es más complejo controlar el uso que los internautas le puedan dar a la información de microdato. En ese sentido, el proceso consiste no sólo en eliminar las variables de identificación de las bases, sino que algunas variables cuantitativas sensibles (como ingresos, personal e inversión) sufren un proceso de perturbación del dato en algunas fuentes susceptibles de identificarse, bien sea por su tamaño o impacto dentro de las actividades económicas del país, por la técnica de anonimización llamada micro-agregación.
Para guardar la confidencialidad de la información, la plataforma ANDA anuncia lo estipulado en la Ley 79 de 1993 Artículo 5 que menciona que “los datos suministrados al Departamento Administrativo Nacional de Estadística DANE, en el desarrollo de los censos y encuestas, no podrán darse a conocer al público ni a las entidades u organismos oficiales, ni a las autoridades públicas, sino únicamente en resúmenes numéricos, que no hagan posible deducir de ellos información alguna de carácter individual que pudiera utilizarse para fines comerciales, de tributación fiscal, de investigación judicial o cualquier otro diferente del propiamente estadístico”. Así mismo, se menciona que el acceso a los microdatos anonimizados de uso público es de carácter gratuito y estará disponible en la página Web del DANE, donde el acceso a los microdatos anonimizados por licencia, cuando requiera procesamientos adicionales, podrá tener un costo que será definido mediante acto administrativo.
DISEÑO DE INSTRUMENTOS DE EDICIÓN (VALIDACIÓN Y CONSISTENCIA) E IMPUTACIÓN DE DATOS
Validación y consistencia
Para la validación y consistencia de la información, el equipo de la operación estadística ejecuta varias fases de revisión:
- En el primer nivel se encuentra la revisión del formulario por parte de los monitores en las sedes y subsedes, que tienen asignada a la fuente. De acuerdo con el Manual de Crítica, que explica los procedimientos para realizar la revisión exhaustiva de los datos suministrados por la empresa y los cruces que deben realizarse con la información de otros capítulos del formulario, el monitor deberá realizar la revisión pertinente y los ajustes que haya a lugar.
- En el segundo nivel se encuentra la revisión del formulario por parte de los analistas de DANE Central que verifican el cumplimiento de los procedimientos descritos en el Manual de Crítica, donde si se encuentra alguna inconformidad, se realzará la gestión con el monitor de la sede o subsede y con la empresa en cuestión con el fin de realizar los ajustes pertinentes.
- En el tercer nivel se encuentra la revisión realizada por parte de los temáticos de la operación estadística, quienes hacen una revisión de la información agregada, para verificar la consistencia de la información y las empresas que tienen mayor participación en la base. Posteriormente, las observaciones a la base son remitidas nuevamente al equipo de DRA para su revisión, ajuste y respuesta.
- En el cuarto nivel se encuentra la revisión realizada en el pre-comité de la operación estadística que es conformado por los equipos temáticos, DRA y el asesor experto de la Dirección para realizar la revisión de la información agregada y a nivel de microdato si se da la necesidad. Si en esta instancia se encuentran ajustes a la información, se debe realizar por parte del equipo de la operación estadística y presentar los respectivos ajustes al asesor.
- En el quinto nivel se encuentra la revisión realizada en comité interno de la operación estadística que es conformado por las diferentes áreas internas del DANE como la Dirección de Recolección y Acopio (DRA), Dirección de Regulación, Planeación, Estandarización y Normalización (DIRPEN), Dirección de Metodología y Producción Estadística (DIMPE), Dirección de Síntesis y Cuentas Nacionales (DSCN) y asesores de la Dirección, con quienes se realiza el análisis de la información tanto a nivel de la información agregada como a nivel del contexto de la innovación. Si en esta instancia se encuentran ajustes a la información, se debe realizar por parte del equipo de la operación estadística y presentar los respectivos ajustes a los revisores de DIMPE.
Imputación
En la EDITS las cifras no son objeto de imputación o ajuste de cobertura en ningún caso. Esto se debe a que se reconoce que ni las magnitudes ni la relación entre las actividades de innovación y desarrollo tecnológico que realizan las empresas a nivel agregado, son generalizables por vía de asignación de valores con base en promedios históricos o sectoriales, dado el carácter no-lineal e infra-determinado de la conducta tecnológica de las empresas. Esto ocurre porque las empresas tienen la posibilidad de realizar inversión en reconversión tecnológica en un año determinado, seguido de otro año con inversión nula o poco significativa en el mismo rubro.