five

Encuesta Pulso de la Migración - EPM - VI-2023 - Colombia

收藏
microdatos.dane.gov.co2024-01-31 更新2025-03-22 收录
下载链接:
https://microdatos.dane.gov.co/index.php/catalog/809
下载链接
链接失效反馈
官方服务:
资源简介:
Resumen --------------------------- El Departamento Administrativo Nacional de Estadística (DANE) en desarrollo de su objetivo misional de producir estadísticas oficiales, que cumplan con los estándares internacionales y que sirvan de base para la toma de decisiones, se propone elaborar la operación estadística Pulso de la Migración. Esta encuesta está dirigida a personas migrantes desde Venezuela y busca producir información relacionada sobre el origen y razones de la migración, acceso a empleo, acceso a servicios de salud, integración socioeconómica, cambios en el flujo de ingresos y remesas, así como percepciones que tienes los migrantes sobre su experiencia de migración, entre otros temas. En ese sentido, esta operación busca ser una herramienta fundamental para la definición e implementación de políticas públicas. Geographic coverage --------------------------- La Encuesta Pulso de la Migración cubre geográficamente a todo el territorio nacional excluyendo nuevos departamentos1 y la Isla de San Andrés. Los resultados se presentan para el total de las 23 ciudades y áreas metropolitanas. 1 Nuevos departamentos: Arauca, Casanare, Putumayo, Amazonas, Guaviare, Guainía, Vaupés y Vichada. Analysis unit --------------------------- a) Unidad de observación: personas. b) Unidad de análisis: En este caso están representadas por los hogares y las personas. c) Unidad de muestreo: Es un muestreo en fases, la primera fase corresponde a la muestra de GEIH, cuyas unidades muestrales son los segmentos. La segunda fase corresponde a todos los hogares y personas de la muestra, que se identifican de acuerdo con las características mencionadas en la población objetivo (al menos un migrante mayor de 15 años en cada hogar). Universo de estudio --------------------------- El universo de estudio en la quinta ronda de la Encuesta Pulso de la Migración está conformado por la población civil no institucional que hacen parte de los hogares en Colombia, excluyendo la isla de San Andrés y nuevos departamentos1 para el año 2022, con al menos una persona migrante desde Venezuela mayor de 15 años. 1 Nuevos departamentos: Arauca, Casanare, Putumayo, Amazonas, Guaviare, Guainía, Vaupés y Vichada. Kind of data --------------------------- Encuesta por muestreo (ssd) Sampling procedure --------------------------- La investigación es una encuesta orientada a hogares y personas, por lo tanto, se establece una estrategia muestral adecuada para acceder a mediciones de estas unidades de análisis con procedimientos que aseguran estimadores insesgados de los parámetros bajo una precisión y confianza preestablecida de antemano. A continuación, se describirá en detalle el plan muestral. Tipo de muestreo Teniendo en cuenta los objetivos y las características de la encuesta se opta por una muestra en dos fases. En la primera fase se establece un diseño muestral probabilístico (Encuesta GEIH marco 2018), donde se obtiene información de un grupo de personas. En la segunda fase y tomando en cuenta la información recolectada en la primera fase, se seleccionan todos los hogares con al menos un migrante mayor de 15 años. Durante las cuatro primeras rondas de esta operación estadística, se estableció una estrategia de muestreo tipo panel, donde la muestra definida en la primera ronda fue usada en las siguientes tres rondas, metodología mediante la cual, dado el carácter específico de migrantes que tiene la población objeto de estudio, se buscó contar con información periódica de las fuentes para conocer las variaciones en los individuos que participan en la encuesta. Debido al agotamiento de la muestra fruto de las rondas anteriores y considerando la atrición generada con el diseño tipo panel; a partir de quinta ronda, se utiliza un diseño de tipo corte transversal. Para esta última ronda la muestra fue seleccionada de la GEIH entre los meses de diciembre de 2022 a julio de 2023. Cálculo de tamaño de muestra: El tamaño de muestra se definió con el objetivo de garantizar prevalencias de un 10%, con un margen de error de 1 punto porcentual y 95% de confiabilidad, de acuerdo con lo anterior se optó por hacer seguimiento a una muestra de hogares con al menos un migrante venezolano, lo cual equivale aproximadamente a cuatro mil hogares por ronda. Selección de muestra: La selección de la muestra se hace a partir de todos los hogares e individuos identificados en la GEIH que cumplen con la característica definida en la población objetivo, es decir aquellos hogares con al menos un migrante mayor de 15 años. Para obtener el tamaño de muestra definido, se tomó información de la GEIH entre los meses de diciembre de 2022 a julio de 2023. Mantenimiento de muestra y manejo de novedades muestrales: Como se mencionó al inicio de esta sección, la Encuesta Pulso de la Migración fue una encuesta tipo panel en las cuatro primeras rondas, donde la muestra de la primera ronda fue usada en las siguientes rondas. Sin embargo, entre la realización de una ronda y otra desaparecen unidades muestrales, fenómeno conocido como atrición. Para superar los inconvenientes de atrición, en cada ronda siguiente, se refrescó la muestra adicionando hogares con las mismas estructuras poblacionales de la ronda original. En la ronda 1 la muestra se seleccionó con los encuestados de la GEIH marco 2005 de enero a junio de 2021. En la ronda 2 con el propósito de mantener el tamaño de muestra (4000 hogares), se refrescó la información de los individuos que se pierden de la muestra de la ronda anterior, con los encuestados de junio, julio y agosto de 2021. En la ronda 3 se refrescó la muestra de la ronda 2 con los encuestados de agosto, septiembre y octubre de 2021 y en la última ronda se refrescó la muestra con los encuestados de noviembre y diciembre de 2021. La siguiente tabla refleja el porcentaje de atrición respecto a la muestra de la ronda 1 que tuvo cada una de las primeras cuatro rondas Tabla 1: Porcentaje de atrición respecto a la muestra de la ronda 1 Ronda Encuestas completas No. Encuestas de Ronda1 Porcentaje de atrición 1 6966 6966 2 7633 5677 18.5% 3 5927 4602 33.9% 4 8394 3662 47.4% Fuente:DANE. Con el objetivo de mantener el tamaño muestral, a partir de la quinta ronda de la Encuesta Pulso de la Migración los datos mantendrán una estructura de corte transversal aplicando medidas adecuadas para maximizar la tasa de respuesta y de recontacto con las fuentes seleccionadas. Se espera que se realicen múltiples intentos de contacto, con los individuos antes de considerarlos una observación "perdida". Por lo tanto, los individuos deben ser contactados en diferentes momentos del día y en diferentes días de la semana. Una observación se considerará "perdida" sólo si se ha intentado ponerse en contacto con ese hogar varias veces, durante varios días y en diferentes momentos del día, incluidos los fines de semana. Sampling deviation --------------------------- MANTENIMIENTO DE MUESTRA Y MANEJO DE NOVEDADES MUESTRALES Con el objetivo de mantener el tamaño muestral, a partir de la quinta ronda de la Encuesta Pulso de la Migración los datos mantendrán una estructura de corte transversal aplicando medidas adecuadas para maximizar la tasa de respuesta y de recontacto con las fuentes seleccionadas. Se espera que se realicen múltiples intentos de contacto, con los individuos antes de considerarlos una observación "perdida". Por lo tanto, los individuos deben ser contactados en diferentes momentos del día y en diferentes días de la semana. Una observación se considerará "perdida" sólo si se ha intentado ponerse en contacto con ese hogar varias veces, durante varios días y en diferentes momentos del día, incluidos los fines de semana. Personas esperadas: 7.374 Personas con encuesta completa: 6.239 Cobertura personas con encuesta completa:84,6% Mode of data collection --------------------------- Entrevista telefónica Research instrument --------------------------- El tipo de formulario utilizado en la Encuesta Pulso de la Migración está conformado por un listado de diferentes preguntas agrupadas en diferentes módulos, varían entre rondas de recolección y publicación de resultados. La simplicidad del cuestionario busca recolectar datos de forma rápida y oportuna, siendo un cuestionario diseñado para entrevistas telefónicas que deben durar de 25 a 30 minutos. A continuación, se presenta la estructura del formulario para la quinta ronda de recolección y los objetivos de cada módulo: Módulo de identificación: contiene preguntas cuyo objetivo es el de captar los datos de identificación, sexo y años de la persona encuestada, nacionalidad, acceso a documentos de regularización, convivencia en Colombia, hacinamiento, persona idónea para responder preguntas del hogar (representante) Modulo características del hogar: Busca obtener información sobre número de personas colombianas y venezolanas en el hogar, convivencia con niños o adolescentes, acceso a educación, deserción y discriminación escolar, entre otras. Módulo de situación migratoria: contiene preguntas con las que se busca obtener información acerca del lugar de residencia previo a la situación migrante, intención de permanencia, intención de seguir recorridos migratorios, contactos antes de migrar y reunificación familiar. Modulo salud: indaga sobre el estado de salud, afiliación al sistema de salud en Colombia, afiliación al sistema de pensiones, dificultades en el acceso al servicio de salud. Módulo de mercado laboral: contiene preguntas con las que se busca obtener información sobre la situación de trabajo y actividades realizadas en el país de origen y su situación actual, tipo de contrato, así como las dificultades de acceso al empleo, acceso a servicios financieros y envío de remesas a Venezuela. Modulo percepción y discriminación: busca conocer el motivo y lugares de discriminación, identidad cultural de los migrantes, percepción de pobreza, comparación con el nivel de vida de los padres, y percepción del nivel de vida de los hijos. Es relevante señalar que en el diseño del formulario de la Encuesta Pulso de la Migración se emplearon criterios para evaluar la factibilidad como su relación con los objetivos de la encuesta, su pertinencia, la claridad para el encuestado, la disponibilidad de fuentes alternativas de información, entre otros. Así mismo, se efectuaron pruebas en el aplicativo de tal forma que no se afectaran las reglas de validación y se verificó que el fraseo de las preguntas fuera adecuado para la comprensión por parte del encuestado/a, de manera que se garantice que la información recolectada tenga el alcance de lo que se pretende medir. Cleaning operations --------------------------- CREACIÓN DE LA BASE DE DATOS (ORACLE) Es necesario contar con el motor de bases de datos y en un esquema creado para la investigación que permita el cargue y almacenamiento general de los datos. La base de datos para la investigación asignada es una base de datos relacional donde la Encuesta Pulso de la Migración, tiene un único registro por persona. Se debe asignar el número de la encuesta asociado a la investigación y definir los tipos de datos, textos de las preguntas, listas de valores asociadas, subpreguntas, entre otros. De igual manera, definir los formularios. Adicionalmente, se establecen los flujos y validaciones de cada una de las preguntas. En la estructura del formulario se debe asociar a cada pregunta el código equivalente con el código de pregunta en Oracle. Así mismo, como parte del diseño se crea un ETL (Extract, Transform and Load) en Pentaho Data Integration y se carga la información a la tabla de la base de datos. CONSOLIDACIÓN DE ARCHIVOS DE DATOS CARGUE DE INFORMACIÓN El proceso de carga de información a la base de datos se realiza seleccionando los archivos planos generados con la herramienta propia de la plataforma MySurvey y con un ETL (Extract, Transform and Load) en Pentaho Data Integration creado, se cargan los datos. Al iniciar el proceso de carga se verifica la identificación única para cada encuesta, garantizando que no exista duplicidad en la información. DICCIONARIO DE DATOS En el diccionario de datos se describen, los metadatos de todas las variables incluidas en las tablas generadas con la información de la operación estadística, entre ellos el nombre de la variable, su código, tipo, extensión, el texto de la pregunta respectiva y de las alternativas de respuesta. El diccionario se construye de acuerdo con la codificación de las preguntas con las que cuenta el formulario de la encuesta. En la medida en que el formulario se revisa y ajusta periódicamente, esta se actualiza. REVISIÓN Y VALIDACIÓN Documenta el procedimiento establecido para revisar y validar el archivo de datos que se conforma a partir de la recolección o el acopio, teniendo en cuenta la posibilidad de volver a consultar al encuestado idóneo o la fuente de datos. De manera adicional, en conjunto con los equipos de logística y sistemas, se realiza una revisión semanal de la información recolectada para detectar inconsistencias susceptibles de ser verificadas y corregidas en campo con el fin de garantizar la calidad de la información recolectada. DISEÑO DE INSTRUMENTOS DE EDICIÓN ( VALIDACIÓN Y CONSISTENCIA) E IMPUTACIÓN DE DATOS CONSISTENCIA DE INFORMACIÓN A través del desarrollo de sentencias Oracle, se identifican posibles inconsistencias por duplicidad a nivel de personas. Se generan reportes que permiten realizar constantemente el monitoreo y control a la información que se ha recolectado. Posteriormente, en el esquema diseñado en ORACLE se crean procedimientos para validar la información de la base de datos, flujos, variables sin información, rangos y estructura, con el fin de obtener una base de datos consistente. Es así que cada operación queda almacenada en su propio esquema de base de datos. Esto permite que los datos se mantengan aislados de la información de otras operaciones y los permisos de acceso a los usuarios se realicen mediante los mecanismos de roles y privilegios propios del sistema manejador de base de datos. DISEÑO PARA LA GENERACIÓN DE CUADROS DE RESULTADOS El equipo temático de la encuesta recibe el archivo en formato DTA por parte del equipo de sistemas con las especificaciones para la generación de los cuadros de salida que se van a publicar. Posteriormente se reciben los factores de expansión por parte del equipo de muestras, con los cuales el equipo de temática genera los cuadros de salida definitivos, que permiten la visualización de los resultados de la encuesta. Estos cuadros se generan en formato XLS y son aquellos que se encuentran en el Anexo publicado. Revisados los cuadros generados por parte del equipo temático, se realizan ajustes, en caso de ser necesario. Los cuadros de salida se generan para los dominios total nacional. Para el análisis y difusión de los resultados de la EPM se han definido los cuadros de salida desagregados por sexo, edad y tamaño del hogar. Response rate --------------------------- Cobertura personas: 84,6% Cobertura de hogares:78,8% Sampling error estimates --------------------------- El proceso de análisis de resultados está comprendido por: MÉTODOS DE ANÁLISIS DE RESULTADOS Los métodos, las técnicas y los procedimientos que permiten verificar la coherencia y calidad de la Encuesta Pulso de la Migración: ·Análisis de consistencia Pueden existir en la operación errores que no dependen de la selección de la muestra, como los que se pueden originar en el diseño del formulario, directamente de la fuente de información por mala interpretación de las instrucciones de diligenciamiento, del recolector por interpretación equivocada del instructivo de diligenciamiento o por deficiencias conceptuales, durante la captura, durante el manejo de los archivos, en la generación de resultados o en el manejo de las novedades por mala asignación. Como se mencionó anteriormente, el supervisor de campo es el encargado de la revisión y análisis de consistencia de la información recolectada en el aplicativo web. Finalizado el periodo de recolección es el equipo logístico el que consolida y depura las bases de posibles inconsistencias. Estas bases se ponen a disposición del equipo donde se genera nuevamente un listado de posibles inconsistencias para someterse a revisión. · Análisis de contexto Se hace un análisis de contexto con los resultados de las rondas anteriores. Con el análisis de contexto se busca determinar qué tan acorde están los resultados con respecto a mediciones similares o paralela a los temas tratados por la EPM. Lo anterior, permite verificar la consistencia de la información en relación con los grandes grupos de actividades, pero sin que ello pueda entenderse como una comparación entre encuestas, pues las metodologías difieren en cada caso. · Análisis de comparabilidad Las comparaciones se realizan con los resultados mensuales de la EPM de acuerdo con las prevalencias de las diferentes preguntas que recoge la encuesta. · Análisis estadístico Se realizan los siguientes análisis: • El análisis descriptivo, que ayuda a observar el comportamiento de la muestra en estudio, a través de tablas, gráficos. • Se analiza en la muestra la estructura de los indicadores a partir de la distribución de frecuencias, y se detectan posibles inconsistencias. • Se verifica que los ajustes del factor de expansión no generen sesgos en las estimaciones, y que sus errores muestrales sean aceptables de acuerdo con los parámetros establecidos por dominios de estudio. • Se verifica que, al momento de realizar desagregación de resultados, los coeficientes de variación no sean tan altos que impidan la inferencia estadística. · Análisis univariado Consiste en el análisis de cada una de las variables estudiadas por separado, es decir, el análisis está basado en una sola variable. Las técnicas más frecuentes de análisis univariado son la distribución de frecuencias, el análisis de las medidas de tendencia central y de las medidas de dispersión de la variable. La distribución de frecuencias de la variable requiere la observación de cómo están distribuidas las categorías de la variable, pudiendo presentarse como valores absolutos o en términos relativos, estas suelen presentarse acompañadas de gráficos estadísticos (como histogramas, tortas, etc.) para facilitar su comprensión y análisis. · Análisis bivariado No aplica. · Análisis multivariado No aplica. ANONIMIZACIÓN DE MICRODATOS El equipo de temática determina las variables que por confidencialidad deben ser anonimizadas en la base de datos que se va a publicar y a partir de la base de datos final, es decir, solo con las encuestas completas, se genera un archivo que remite al área de sistemas. Dicha área, luego de realizar ese proceso, reenvía el archivo al área temática para su verificación y aprobación y posterior publicación en la página web de DANE. De acuerdo con los protocolos de anonimización, no se incluyen variables relacionadas con la identificación de las viviendas como son su dirección, barrio, número telefónico, etc., y datos de identificación de las personas. Debido a que la EPM es una submuestra de la GEIH, se permite que las variables de directorio, secuencia y orden sean usadas como llaves de identificación y así usar los datos de la GEIH del mismo mes del año anterior. Con este proceso se busca garantizar la reserva estadística y a su vez facilitar el uso de la información. VERIFICACIÓN DE LA ANONIMIZACIÓN DE MICRODATOS El equipo temático revisará que las variables, que por confidencialidad deben ser anonimizadas en la base de datos, no se encuentren publicadas en la página web de DANE. COMITÉS DE EXPERTOS Dado que la Encuesta Pulso de la Migración es una estadística experimental, no existe un comité experto oficial, sin embargo, se tienen mesas de trabajo con Banco Mundial, USAID, el Banco Interamericano de Desarrollo para definir las temáticas, cuestionarios, la muestra, la metodología de recolección y se discuten los resultados de manera que se respalda la oficialidad de la encuesta.

摘要 --------------------------- 国家行政统计局(DANE)在其使命目标的指导下,旨在生产符合国际标准、服务于决策制定基础的数据,计划实施‘移民脉搏’统计调查。该调查针对来自委内瑞拉的移民人群,旨在收集有关移民的起源和原因、就业机会、医疗服务获取、社会经济融合、收入和汇款流量的变化,以及移民对其移民经历的看法等信息。在此意义上,该调查旨在成为制定和实施公共政策的基本工具。 地理覆盖范围 --------------------------- ‘移民脉搏’调查地理上覆盖全国所有地区,不包括新成立的部门和圣安德烈斯岛。结果以23个城市和都市区的总和呈现。 分析单位 --------------------------- a) 观察单位:个人。 b) 分析单位:在本例中,由家庭和人员代表。 c) 抽样单位:这是一次多阶段的抽样,第一阶段对应于GEIH的样本,其抽样单位是段。 第二阶段对应于样本中的所有家庭和人员,根据目标人群的特征(每个家庭至少有一名15岁以上的移民)进行识别。 研究范围 --------------------------- 第五轮‘移民脉搏’调查的研究范围包括哥伦比亚所有民事非机构人口,这些人口是家庭的一部分,不包括圣安德烈斯岛和新成立的部门,且2022年至少有一名来自委内瑞拉的15岁以上移民。 数据类型 --------------------------- 抽样调查(ssd) 抽样程序 --------------------------- 研究是一种针对家庭和个人的调查,因此,采用适当的抽样策略,以通过确保在预先设定的精度和置信度下无偏估计参数的估计来访问这些分析单位的测量。 以下将详细描述抽样计划。 抽样类型 考虑到调查的目标和特征,选择了一种两阶段的抽样。在第一阶段,建立一个概率抽样设计(2018年GEIH框架调查),从中获得一组人的信息。 在第二阶段,根据第一阶段收集到的信息,选择所有至少有一名15岁以上移民的家庭。 在‘移民脉搏’调查的前四个阶段中,采用了一种面板抽样策略,其中第一轮中定义的样本被用于随后的三个轮次。这种方法旨在由于研究对象中移民的特定性质,定期获取这些来源的信息,以了解参与调查的个体变化。 由于样本在前几轮中耗尽,以及面板设计产生的流失;从第五轮开始,采用横断面设计。对于最后一轮,样本从2022年12月到2023年7月的GEIH中选取。 样本量计算 样本量确定旨在保证10%的患病率,误差范围为1个百分点,置信度为95%,根据上述内容,选择跟踪至少有一名委内瑞拉移民的家庭样本,这相当于每轮大约四千个家庭。 样本选择 样本选择从所有在GEIH中标识为符合目标人群特征的住宅和个体开始,即那些至少有一名15岁以上移民的家庭。 为了获得定义的样本量,从2022年12月到2023年7月的GEIH中获取信息。 样本维护和样本更新的管理 如本节开头所述,‘移民脉搏’调查在前四轮中是一种面板调查,其中第一轮的样本被用于随后的轮次。然而,在每一轮之间,样本单位会消失,这种现象被称为流失。为了克服流失的不便,在每一轮之后,通过添加具有原始轮次相同人口结构的家庭来刷新样本。 在第一轮中,样本是通过2021年1月至6月GEIH框架2005年的受访者选定的。 为了保持样本量(4000个家庭),在第二轮中,通过2021年6月、7月和8月的受访者刷新了丢失的个体信息。 在第三轮中,通过2021年8月、9月和10月的受访者刷新了第二轮的样本。 最后一轮,通过2021年11月和12月的受访者刷新了样本。 以下表格反映了与前一轮1相比的流失率。 表格1:与前一轮1相比的流失率 Ronda Encuestas completas No. Encuestas de Ronda1Porcentaje de atrición 1 6966 6966 2 7633 5677 18.5% 3 5927 4602 33.9% 4 8394 3662 47.4% 来源:DANE。 为了保持样本量,从第五轮开始,‘移民脉搏’调查的数据将保持横断面结构,采取适当的措施以最大限度地提高选定来源的响应率和重新联系率。 预计将进行多次联系尝试,在考虑个体为‘丢失’观察之前。 因此,个体应在一天中的不同时间和一周的不同日子里进行联系。 只有当多次尝试联系该家庭,在几天内,包括周末,在一天中的不同时间时,才将观察视为‘丢失’。 抽样偏差 --------------------------- 样本维护和样本更新的管理 为了保持样本量,从第五轮开始,‘移民脉搏’调查的数据将保持横断面结构,采取适当的措施以最大限度地提高选定来源的响应率和重新联系率。 预计将进行多次联系尝试,在考虑个体为‘丢失’观察之前。 因此,个体应在一天中的不同时间和一周的不同日子里进行联系。 只有当多次尝试联系该家庭,在几天内,包括周末,在一天中的不同时间时,才将观察视为‘丢失’。 数据收集方式 --------------------------- 电话访谈 研究工具 --------------------------- 在‘移民脉搏’调查中使用的表格由不同模块中的不同问题组成,这些模块在数据收集和结果发布轮次之间有所不同。 问卷的简洁性旨在快速和及时地收集数据,这是一份为电话访谈而设计的问卷,访谈时间应持续25至30分钟。 以下列出了第五轮收集和发布结果的表格结构以及每个模块的目标。 识别模块:包含旨在收集受访者身份、性别和年龄、国籍、合法化文件获取、在哥伦比亚的居住情况、拥挤情况、能够回答家庭问题的合适人员(代表)的问题。 家庭特征模块:旨在获取有关家庭中哥伦比亚人和委内瑞人数量的信息,与儿童或青少年的同居情况,教育获取、辍学和学校歧视等信息。 移民情况模块:包含旨在获取有关移民前居住地、居住意愿、继续移民旅程意愿、移民前联系和家庭成员团聚的信息的问题。 健康模块:探讨健康状况、在哥伦比亚的健康保险系统中的保险、养老金系统中的保险、获取医疗服务的困难。 劳动力市场模块:包含旨在获取有关在国和当前情况下工作的状况和活动、合同类型,以及获取就业、金融服务和向委内瑞拉发送汇款的困难程度的信息的问题。 感知与歧视模块:旨在了解歧视的原因和地点、移民的文化身份、贫困感知、与父母生活水平的比较,以及子女生活水平的感知。 值得注意的是,在‘移民脉搏’调查表格的设计中,采用了评估可行性的标准,如与调查目标的关联性、相关性、受访者易懂性、其他信息来源的可用性等。 此外,在应用程序中进行了测试,以确保不会影响验证规则,并核实了问题的措辞对于受访者来说是合适的,以确保收集到的信息涵盖所打算测量的范围。 数据清理操作 --------------------------- 创建数据库(ORACLE) 有必要拥有数据库引擎和为研究创建的方案,以允许数据的加载和存储。 分配给研究的数据库是一个关系数据库,其中‘移民脉搏’调查对每个个人都有一个唯一记录。 必须分配与调查相关的问卷编号,并定义数据类型、问题文本、相关值列表、子问题等。 同样,定义表格。 此外,建立了每个问题的流程和验证。 在表结构中,必须将每个问题与Oracle中的问题代码等效的代码相关联。 作为设计的一部分,在Pentaho Data Integration中创建了一个ETL(提取、转换和加载),并将信息加载到数据库表。 数据文件的合并 数据加载 将信息加载到数据库的过程是通过选择由MySurvey平台自身生成的平面文件以及由Pentaho Data Integration创建的ETL(提取、转换和加载)进行的,然后加载数据。 在启动加载过程时,验证每个问卷的唯一性,确保信息中不存在重复。 数据字典 在数据字典中,描述了包含在由操作统计数据生成的表格中的所有变量的元数据,包括变量名称、代码、类型、扩展、相关问题的文本以及响应选项。 数据字典是根据问题的编码构建的,这些编码在问卷表格中可用。随着表格的定期审查和调整,该字典也进行了更新。 审查和验证 记录了用于审查和验证从收集或汇集中形成的文件数据的程序,考虑到重新咨询适当的受访者或数据来源的可能性。 此外,与物流和系统团队一起,每周对收集到的信息进行审查,以检测可能需要在现场验证和纠正的不一致,以确保收集到的信息的质量。 数据编辑工具的设计(验证和一致性)和数据插补 信息一致性 通过Oracle开发语句,识别可能存在的人的重复性不一致。生成报告,允许持续监控和控制收集到的信息。 随后,在ORACLE中设计的方案中创建验证数据库信息的程序,验证流程、变量无信息、范围和结构,以获得一致的数据库。 因此,每个操作都存储在其自己的数据库方案中。这允许数据与其他操作的信息保持隔离,并通过系统数据库管理器的角色和权限机制实现用户访问权限。 生成结果表格的设计 调查的主题团队从系统团队那里接收格式为DTA的文件,其中包含生成将要发布的输出表格的规范。 随后,从样本团队那里接收扩展因素,主题团队使用这些扩展因素生成最终的输出表格,这些表格允许查看调查的结果。 这些表格以XLS格式生成,是附件中包含的表格。 审查了主题团队生成的表格后,如果需要,则进行调整。 输出表格针对全国总领域生成。为了分析和传播EPM的结果,已定义了按性别、年龄和家庭规模分解的输出表格。 响应率 --------------------------- 人口覆盖率:84.6% 家庭覆盖率:78.8% 抽样误差估计 --------------------------- 结果分析过程包括: 分析结果的方法 允许验证‘移民脉搏’调查的一致性和质量的方法、技术和程序: ·一致性分析 可能存在操作错误,这些错误不依赖于样本的选择,例如可能由表格设计、直接来自信息来源的填报指令的误解、收集者的填报指令误解或概念缺陷、在捕获期间、在文件处理期间、在生成结果期间或在处理新情况期间产生的错误。 如前所述,现场主管负责审查和分析收集到的信息的一致性。 在收集期结束后,物流团队负责合并和清理可能存在不一致性的基础。 这些基础可供生成新的一致性列表的团队使用,以进行审查。 ·上下文分析 通过对先前轮次的结果进行上下文分析,以确定结果与类似或平行于EPM讨论的主题的测量是否一致。 上下文分析允许验证信息与大型活动群体的一致性,但不应理解为对调查之间的比较,因为每种情况中的方法都不同。 ·可比性分析 进行比较的是EPM的月度结果,根据调查收集的不同问题的患病率。 ·统计分析 执行以下分析: • 描述性分析,有助于通过表格和图表观察研究样本的行为。 • 分析样本中的指标结构,从频率分布中得出,并检测可能的不一致性。 • 验证因素扩张的调整不会在估计中产生偏差,并且样本误差符合由研究领域设定的参数。 • 在进行结果分解时,验证变异系数不是那么高,以至于阻碍了统计推断。 ·单变量分析 这包括对每个研究的变量进行单独的分析,即基于一个变量的分析。最常见单变量分析技术是频率分布、趋势测量分析和变量的离散度测量分析。变量的频率分布需要观察变量类别的分布,可以是绝对值或相对值,这些通常伴随着统计图表(如直方图、饼图等)以帮助理解和分析。 ·双变量分析 不适用。 ·多变量分析 不适用。 匿名化微观数据 主题团队确定在要发布的数据库中必须匿名化的变量,并从最终数据库中生成一个文件,该文件发送到系统区域。 该区域在完成该过程后,将文件重新发送到主题区域进行验证和批准,然后发布在DANE的网站上。 根据匿名化协议,不包括与住宅识别相关的变量,如地址、街区、电话号码等,以及人员的身份识别数据。 由于EPM是GEIH的子样本,允许使用目录变量、序列和顺序作为识别键,并使用上一年同一月份的GEIH数据。 通过此过程,旨在保证统计机密性和同时方便信息的使用。 微观数据匿名化的验证 主题团队将审查,确保必须因机密性而匿名化的变量不在DANE的网站上公布。 专家委员会 由于‘移民脉搏’调查是一种实验性统计,没有官方的专家委员会,但与世界银行、USAID、美洲开发银行就主题、问卷、样本、收集方法和方法进行讨论的主题会议。 讨论结果,以支持调查的官方性。
提供机构:
microdatos.dane.gov.co
二维码
社区交流群
二维码
科研交流群
商业服务