five

Encuesta Pulso de la Migración - EPM - VII- 2024 - Colombia

收藏
microdatos.dane.gov.co2024-10-15 更新2025-01-15 收录
下载链接:
https://microdatos.dane.gov.co/index.php/catalog/837
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
Resumen --------------------------- El Departamento Administrativo Nacional de Estadística (DANE) en desarrollo de su objetivo misional de producir estadísticas oficiales, que cumplan con los estándares internacionales y que sirvan de base para la toma de decisiones, se propone elaborar la operación estadística Pulso de la Migración. Esta encuesta está dirigida a personas migrantes desde Venezuela y busca producir información relacionada sobre el origen y razones de la migración, acceso a empleo, acceso a servicios de salud, integración socioeconómica, cambios en el flujo de ingresos y remesas, así como percepciones que tienes los migrantes sobre su experiencia de migración, entre otros temas. En ese sentido, esta operación busca ser una herramienta fundamental para la definición e implementación de políticas públicas. Geographic coverage --------------------------- La Encuesta Pulso de la Migración VII cubre geográficamente a todo el territorio nacional excluyendo nuevos departamentos1 y la Isla de San Andrés. Los resultados se presentan para el total de las 23 ciudades y áreas metropolitanas. 1 Nuevos departamentos: Arauca, Casanare, Putumayo, Amazonas, Guaviare, Guainía, Vaupés y Vichada. Analysis unit --------------------------- a) Unidad de observación: personas. b) Unidad de análisis: En este caso están representadas por los hogares y las personas. c) Unidad de muestreo: Es un muestreo en fases, la primera fase corresponde a la muestra de GEIH, cuyas unidades muestrales son los segmentos. La segunda fase corresponde a todos los hogares y personas de la muestra, que se identifican de acuerdo con las características mencionadas en la población objetivo (al menos un migrante mayor de 15 años en cada hogar). Universo de estudio --------------------------- El universo de estudio en la septima ronda de la Encuesta Pulso de la Migración está conformado por la población civil no institucional que hacen parte de los hogares en Colombia, excluyendo la isla de San Andrés y nuevos departamentos1 para el año 2022, con al menos una persona migrante desde Venezuela mayor de 15 años. 1 Nuevos departamentos: Arauca, Casanare, Putumayo, Amazonas, Guaviare, Guainía, Vaupés y Vichada. Kind of data --------------------------- Encuesta por muestreo (ssd) Sampling procedure --------------------------- La investigación es una encuesta orientada a hogares y personas, por lo tanto, se establece una estrategia muestral adecuada para acceder a mediciones de estas unidades de análisis con procedimientos que aseguran estimadores insesgados de los parámetros bajo una precisión y confianza preestablecida de antemano. A continuación, se describirá en detalle el plan muestral. Tipo de muestreo Teniendo en cuenta los objetivos y las características de la encuesta se opta por una muestra en dos fases. En la primera fase se establece un diseño muestral probabilístico (Encuesta GEIH marco 2018), donde se obtiene información de un grupo de personas. En la segunda fase y tomando en cuenta la información recolectada en la primera fase, se seleccionan todos los hogares con al menos un migrante mayor de 15 años. Durante las cuatro primeras rondas de esta operación estadística, se estableció una estrategia de muestreo tipo panel, donde la muestra definida en la primera ronda fue usada en las siguientes tres rondas, metodología mediante la cual, dado el carácter específico de migrantes que tiene la población objeto de estudio, se buscó contar con información periódica de las fuentes para conocer las variaciones en los individuos que participan en la encuesta. Debido al agotamiento de la muestra fruto de las rondas anteriores y considerando la atrición generada con el diseño tipo panel; a partir de quinta ronda, se utiliza un diseño de tipo corte transversal. Para esta última ronda la muestra fue seleccionada de la GEIH entre los meses de diciembre de 2022 a julio de 2023. Cálculo de tamaño de muestra: El tamaño de muestra se definió con el objetivo de garantizar prevalencias de un 10%, con un margen de error de 1 punto porcentual y 95% de confiabilidad, de acuerdo con lo anterior se optó por hacer seguimiento a una muestra de hogares con al menos un migrante venezolano, lo cual equivale aproximadamente a cuatro mil hogares por ronda. Selección de muestra: La selección de la muestra se hace a partir de todos los hogares e individuos identificados en la GEIH que cumplen con la característica definida en la población objetivo, es decir aquellos hogares con al menos un migrante mayor de 15 años. Para obtener el tamaño de muestra definido, se tomó información de la GEIH entre los meses de diciembre de 2022 a julio de 2023. Mantenimiento de muestra y manejo de novedades muestrales: Como se mencionó al inicio de esta sección, la Encuesta Pulso de la Migración fue una encuesta tipo panel en las cuatro primeras rondas, donde la muestra de la primera ronda fue usada en las siguientes rondas. Sin embargo, entre la realización de una ronda y otra desaparecen unidades muestrales, fenómeno conocido como atrición. Para superar los inconvenientes de atrición, en cada ronda siguiente, se refrescó la muestra adicionando hogares con las mismas estructuras poblacionales de la ronda original. En la ronda 1 la muestra se seleccionó con los encuestados de la GEIH marco 2005 de enero a junio de 2021. En la ronda 2 con el propósito de mantener el tamaño de muestra (4000 hogares), se refrescó la información de los individuos que se pierden de la muestra de la ronda anterior, con los encuestados de junio, julio y agosto de 2021. En la ronda 3 se refrescó la muestra de la ronda 2 con los encuestados de agosto, septiembre y octubre de 2021 y en la última ronda se refrescó la muestra con los encuestados de noviembre y diciembre de 2021. La siguiente tabla refleja el porcentaje de atrición respecto a la muestra de la ronda 1 que tuvo cada una de las primeras cuatro rondas Tabla 1: Porcentaje de atrición respecto a la muestra de la ronda 1 Ronda Encuestas completas No. Encuestas de Ronda1 Porcentaje de atrición 1 6966 6966 2 7633 5677 18.5% 3 5927 4602 33.9% 4 8394 3662 47.4% Fuente:DANE. Con el objetivo de mantener el tamaño muestral, a partir de la quinta ronda de la Encuesta Pulso de la Migración los datos mantendrán una estructura de corte transversal aplicando medidas adecuadas para maximizar la tasa de respuesta y de recontacto con las fuentes seleccionadas. Se espera que se realicen múltiples intentos de contacto, con los individuos antes de considerarlos una observación "perdida". Por lo tanto, los individuos deben ser contactados en diferentes momentos del día y en diferentes días de la semana. Una observación se considerará "perdida" sólo si se ha intentado ponerse en contacto con ese hogar varias veces, durante varios días y en diferentes momentos del día, incluidos los fines de semana. Sampling deviation --------------------------- MANTENIMIENTO DE MUESTRA Y MANEJO DE NOVEDADES MUESTRALES Con el objetivo de mantener el tamaño muestral, a partir de la quinta ronda de la Encuesta Pulso de la Migración los datos mantendrán una estructura de corte transversal aplicando medidas adecuadas para maximizar la tasa de respuesta y de recontacto con las fuentes seleccionadas. Se espera que se realicen múltiples intentos de contacto, con los individuos antes de considerarlos una observación "perdida". Por lo tanto, los individuos deben ser contactados en diferentes momentos del día y en diferentes días de la semana. Una observación se considerará "perdida" sólo si se ha intentado ponerse en contacto con ese hogar varias veces, durante varios días y en diferentes momentos del día, incluidos los fines de semana. Personas esperadas: 7.747 Personas con encuesta completa: 8.020 Cobertura personas con encuesta completa: 103,5% Hogares esperados: 4.000 Hogares con encuesta completa: 3.695 Cobertura hogares con encuesta completa: 92,4% Mode of data collection --------------------------- Entrevista telefónica Research instrument --------------------------- El tipo de formulario utilizado en la Encuesta Pulso de la Migración está conformado por un listado de diferentes preguntas agrupadas en diferentes módulos, varían entre rondas de recolección y publicación de resultados. La simplicidad del cuestionario busca recolectar datos de forma rápida y oportuna, siendo un cuestionario diseñado para entrevistas telefónicas que deben durar de 25 a 30 minutos. A continuación, se presenta la estructura del formulario para la quinta ronda de recolección y los objetivos de cada módulo: Módulo de identificación: contiene preguntas cuyo objetivo es el de captar los datos de identificación, sexo y años de la persona encuestada, nacionalidad, acceso a documentos de regularización, convivencia en Colombia, hacinamiento, persona idónea para responder preguntas del hogar (representante) Modulo características del hogar: Busca obtener información sobre número de personas colombianas y venezolanas en el hogar, convivencia con niños o adolescentes, acceso a educación, deserción y discriminación escolar, entre otras. Módulo de situación migratoria: contiene preguntas con las que se busca obtener información acerca del lugar de residencia previo a la situación migrante, intención de permanencia, intención de seguir recorridos migratorios, contactos antes de migrar y reunificación familiar. Modulo salud: indaga sobre el estado de salud, afiliación al sistema de salud en Colombia, afiliación al sistema de pensiones, dificultades en el acceso al servicio de salud. Módulo de mercado laboral: contiene preguntas con las que se busca obtener información sobre la situación de trabajo y actividades realizadas en el país de origen y su situación actual, tipo de contrato, así como las dificultades de acceso al empleo, acceso a servicios financieros y envío de remesas a Venezuela. Modulo percepción y discriminación: busca conocer el motivo y lugares de discriminación, identidad cultural de los migrantes, percepción de pobreza, comparación con el nivel de vida de los padres, y percepción del nivel de vida de los hijos. Es relevante señalar que en el diseño del formulario de la Encuesta Pulso de la Migración se emplearon criterios para evaluar la factibilidad como su relación con los objetivos de la encuesta, su pertinencia, la claridad para el encuestado, la disponibilidad de fuentes alternativas de información, entre otros. Así mismo, se efectuaron pruebas en el aplicativo de tal forma que no se afectaran las reglas de validación y se verificó que el fraseo de las preguntas fuera adecuado para la comprensión por parte del encuestado/a, de manera que se garantice que la información recolectada tenga el alcance de lo que se pretende medir. Cleaning operations --------------------------- CREACIÓN DE LA BASE DE DATOS (ORACLE) Es necesario contar con el motor de bases de datos y en un esquema creado para la investigación que permita el cargue y almacenamiento general de los datos. La base de datos para la investigación asignada es una base de datos relacional donde la Encuesta Pulso de la Migración, tiene un único registro por persona. Se debe asignar el número de la encuesta asociado a la investigación y definir los tipos de datos, textos de las preguntas, listas de valores asociadas, subpreguntas, entre otros. De igual manera, definir los formularios. Adicionalmente, se establecen los flujos y validaciones de cada una de las preguntas. En la estructura del formulario se debe asociar a cada pregunta el código equivalente con el código de pregunta en Oracle. Así mismo, como parte del diseño se crea un ETL (Extract, Transform and Load) en Pentaho Data Integration y se carga la información a la tabla de la base de datos. CONSOLIDACIÓN DE ARCHIVOS DE DATOS CARGUE DE INFORMACIÓN El proceso de carga de información a la base de datos se realiza seleccionando los archivos planos generados con la herramienta propia de la plataforma MySurvey y con un ETL (Extract, Transform and Load) en Pentaho Data Integration creado, se cargan los datos. Al iniciar el proceso de carga se verifica la identificación única para cada encuesta, garantizando que no exista duplicidad en la información. DICCIONARIO DE DATOS En el diccionario de datos se describen, los metadatos de todas las variables incluidas en las tablas generadas con la información de la operación estadística, entre ellos el nombre de la variable, su código, tipo, extensión, el texto de la pregunta respectiva y de las alternativas de respuesta. El diccionario se construye de acuerdo con la codificación de las preguntas con las que cuenta el formulario de la encuesta. En la medida en que el formulario se revisa y ajusta periódicamente, esta se actualiza. REVISIÓN Y VALIDACIÓN Documenta el procedimiento establecido para revisar y validar el archivo de datos que se conforma a partir de la recolección o el acopio, teniendo en cuenta la posibilidad de volver a consultar al encuestado idóneo o la fuente de datos. De manera adicional, en conjunto con los equipos de logística y sistemas, se realiza una revisión semanal de la información recolectada para detectar inconsistencias susceptibles de ser verificadas y corregidas en campo con el fin de garantizar la calidad de la información recolectada. DISEÑO DE INSTRUMENTOS DE EDICIÓN ( VALIDACIÓN Y CONSISTENCIA) E IMPUTACIÓN DE DATOS CONSISTENCIA DE INFORMACIÓN A través del desarrollo de sentencias Oracle, se identifican posibles inconsistencias por duplicidad a nivel de personas. Se generan reportes que permiten realizar constantemente el monitoreo y control a la información que se ha recolectado. Posteriormente, en el esquema diseñado en ORACLE se crean procedimientos para validar la información de la base de datos, flujos, variables sin información, rangos y estructura, con el fin de obtener una base de datos consistente. Es así que cada operación queda almacenada en su propio esquema de base de datos. Esto permite que los datos se mantengan aislados de la información de otras operaciones y los permisos de acceso a los usuarios se realicen mediante los mecanismos de roles y privilegios propios del sistema manejador de base de datos. DISEÑO PARA LA GENERACIÓN DE CUADROS DE RESULTADOS El equipo temático de la encuesta recibe el archivo en formato DTA por parte del equipo de sistemas con las especificaciones para la generación de los cuadros de salida que se van a publicar. Posteriormente se reciben los factores de expansión por parte del equipo de muestras, con los cuales el equipo de temática genera los cuadros de salida definitivos, que permiten la visualización de los resultados de la encuesta. Estos cuadros se generan en formato XLS y son aquellos que se encuentran en el Anexo publicado. Revisados los cuadros generados por parte del equipo temático, se realizan ajustes, en caso de ser necesario. Los cuadros de salida se generan para los dominios total nacional. Para el análisis y difusión de los resultados de la EPM se han definido los cuadros de salida desagregados por sexo, edad y tamaño del hogar. Response rate --------------------------- Cobertura personas: 103,5% Cobertura de hogares: 92,4% Sampling error estimates --------------------------- El proceso de análisis de resultados está comprendido por: MÉTODOS DE ANÁLISIS DE RESULTADOS Los métodos, las técnicas y los procedimientos que permiten verificar la coherencia y calidad de la Encuesta Pulso de la Migración: ·Análisis de consistencia Pueden existir en la operación errores que no dependen de la selección de la muestra, como los que se pueden originar en el diseño del formulario, directamente de la fuente de información por mala interpretación de las instrucciones de diligenciamiento, del recolector por interpretación equivocada del instructivo de diligenciamiento o por deficiencias conceptuales, durante la captura, durante el manejo de los archivos, en la generación de resultados o en el manejo de las novedades por mala asignación. Como se mencionó anteriormente, el supervisor de campo es el encargado de la revisión y análisis de consistencia de la información recolectada en el aplicativo web. Finalizado el periodo de recolección es el equipo logístico el que consolida y depura las bases de posibles inconsistencias. Estas bases se ponen a disposición del equipo donde se genera nuevamente un listado de posibles inconsistencias para someterse a revisión. · Análisis de contexto Se hace un análisis de contexto con los resultados de las rondas anteriores. Con el análisis de contexto se busca determinar qué tan acorde están los resultados con respecto a mediciones similares o paralela a los temas tratados por la EPM. Lo anterior, permite verificar la consistencia de la información en relación con los grandes grupos de actividades, pero sin que ello pueda entenderse como una comparación entre encuestas, pues las metodologías difieren en cada caso. · Análisis de comparabilidad Las comparaciones se realizan con los resultados mensuales de la EPM de acuerdo con las prevalencias de las diferentes preguntas que recoge la encuesta. · Análisis estadístico Se realizan los siguientes análisis: • El análisis descriptivo, que ayuda a observar el comportamiento de la muestra en estudio, a través de tablas, gráficos. • Se analiza en la muestra la estructura de los indicadores a partir de la distribución de frecuencias, y se detectan posibles inconsistencias. • Se verifica que los ajustes del factor de expansión no generen sesgos en las estimaciones, y que sus errores muestrales sean aceptables de acuerdo con los parámetros establecidos por dominios de estudio. • Se verifica que, al momento de realizar desagregación de resultados, los coeficientes de variación no sean tan altos que impidan la inferencia estadística. · Análisis univariado Consiste en el análisis de cada una de las variables estudiadas por separado, es decir, el análisis está basado en una sola variable. Las técnicas más frecuentes de análisis univariado son la distribución de frecuencias, el análisis de las medidas de tendencia central y de las medidas de dispersión de la variable. La distribución de frecuencias de la variable requiere la observación de cómo están distribuidas las categorías de la variable, pudiendo presentarse como valores absolutos o en términos relativos, estas suelen presentarse acompañadas de gráficos estadísticos (como histogramas, tortas, etc.) para facilitar su comprensión y análisis. · Análisis bivariado No aplica. · Análisis multivariado No aplica. ANONIMIZACIÓN DE MICRODATOS El equipo de temática determina las variables que por confidencialidad deben ser anonimizadas en la base de datos que se va a publicar y a partir de la base de datos final, es decir, solo con las encuestas completas, se genera un archivo que remite al área de sistemas. Dicha área, luego de realizar ese proceso, reenvía el archivo al área temática para su verificación y aprobación y posterior publicación en la página web de DANE. De acuerdo con los protocolos de anonimización, no se incluyen variables relacionadas con la identificación de las viviendas como son su dirección, barrio, número telefónico, etc., y datos de identificación de las personas. Debido a que la EPM es una submuestra de la GEIH, se permite que las variables de directorio, secuencia y orden sean usadas como llaves de identificación y así usar los datos de la GEIH del mismo mes del año anterior. Con este proceso se busca garantizar la reserva estadística y a su vez facilitar el uso de la información. VERIFICACIÓN DE LA ANONIMIZACIÓN DE MICRODATOS El equipo temático revisará que las variables, que por confidencialidad deben ser anonimizadas en la base de datos, no se encuentren publicadas en la página web de DANE. COMITÉS DE EXPERTOS Dado que la Encuesta Pulso de la Migración es una estadística experimental, no existe un comité experto oficial, sin embargo, se tienen mesas de trabajo con Banco Mundial, USAID, el Banco Interamericano de Desarrollo para definir las temáticas, cuestionarios, la muestra, la metodología de recolección y se discuten los resultados de manera que se respalda la oficialidad de la encuesta.

摘要 --------------------------- 国家统计局(DANE)为达成其使命目标,即生产符合国际标准且能够作为决策基础的官方统计数据,旨在制定《移民脉搏》统计操作。该调查针对来自委内瑞拉的移民,旨在收集关于移民起源和原因、就业、医疗服务、社会经济融合、收入和汇款流动变化以及移民对其移民经历的感受等方面的信息。在此意义上,该操作旨在成为制定和实施公共政策的基本工具。 地理覆盖范围 --------------------------- 《移民脉搏》第七次调查地理上覆盖全国领土,不包括新成立的部门和圣安德烈斯岛。结果按全国23个城市和都市区汇总。 1 新成立的部门:阿劳卡、卡萨纳雷、普图马约、亚马孙、瓜维亚雷、瓜伊尼亚、瓦乌佩斯和维查达。 分析单元 --------------------------- a) 观察单位:个人。 b) 分析单位:在本例中,由家庭和个人代表。 c) 样本单位:这是一种分阶段的抽样,第一阶段对应于GEIH的样本,其样本单位是段。 第二阶段对应于样本中的所有家庭和个人,根据目标人群的特征(每个家庭至少有一名15岁以上的移民)进行识别。 研究对象 --------------------------- 《移民脉搏》第七轮调查的研究对象是由哥伦比亚家庭组成的人口,不包括圣安德烈斯岛和新成立的部门,且至少有一名15岁以上的委内瑞拉移民,这些数据对应于2022年。 1 新成立的部门:阿劳卡、卡萨纳雷、普图马约、亚马孙、瓜维亚雷、瓜伊尼亚、瓦乌佩斯和维查达。 数据类型 --------------------------- 抽样调查(ssd) 抽样程序 --------------------------- 本研究是一个针对家庭和个人的调查,因此建立了一个适当的抽样策略,以通过确保在预先设定的精确度和置信水平下无偏估计参数来访问这些分析单位的测量。 以下将详细描述抽样计划。 抽样类型 考虑到调查的目标和特征,选择了一种两阶段抽样。 在第一阶段,建立了一个概率抽样设计(2018年GEIH框架调查),从中获得了一组人的信息。 在第二阶段,根据第一阶段收集到的信息,选择了所有至少有一名15岁以上移民的家庭。 在《移民脉搏》操作的前四个阶段,建立了面板抽样策略,其中第一阶段确定的样本在随后的三个阶段中使用。这种方法的目的是,鉴于研究对象中具有特定移民特征的群体的性质,定期收集信息,以了解参与调查的个体在个体之间的变化。 由于先前阶段的样本耗尽和面板设计产生的流失;从第五轮开始,使用横断面设计。对于最后一轮,样本是从2022年12月至2023年7月之间的GEIH中选出的。 样本量计算: 样本量定义为确保10%的普遍性,误差范围为1个百分点,置信度为95%,根据上述内容,选择追踪至少有一名委内瑞拉移民的家庭样本,这相当于每轮大约四千户家庭。 样本选择: 样本选择从所有在GEIH中识别的符合目标人群特征的住房和个人开始,即那些至少有一名15岁以上移民的家庭。为了获得定义的样本量,从2022年12月至2023年7月之间的GEIH中获取信息。 样本维护和样本变化管理: 如本节开头所述,《移民脉搏》调查在前四轮中是一种面板调查,其中第一轮的样本在随后的轮次中使用。然而,在每一轮之间,样本单元消失,这种现象被称为流失。为了克服流失的不便,在每一轮的下一轮中,通过添加具有与原始轮次相同人口结构的家庭来刷新样本。 在第一轮中,样本是通过2021年1月至6月的GEIH框架调查的受访者选定的。在第二轮中,为了保持样本量(4000户家庭),通过2021年6月、7月和8月的受访者刷新了失去样本的信息。在第三轮中,通过2021年8月、9月和10月的受访者刷新了第二轮的样本。在最后一轮中,通过2021年11月和12月的受访者刷新了样本。 以下表格反映了与第一轮样本相比的流失百分比。 表格1:与第一轮样本相比的流失百分比 轮次 完整问卷 第一轮问卷数量 流失百分比 1 6966 6966 2 7633 5677 18.5% 3 5927 4602 33.9% 4 8394 3662 47.4% 来源:DANE。 为了保持样本量,从《移民脉搏》调查的第五轮开始,数据将保持横断面结构,同时采取适当措施以最大化所选来源的响应率和重新联系率。 预计将进行多次联系尝试,在考虑个体为“丢失”观察之前。 因此,个体应在一天中的不同时间和一周中的不同日子进行联系。 只有当多次尝试联系同一家庭,并在几天和一天中的不同时间,包括周末时,才将观察视为“丢失”。 抽样偏差 --------------------------- 样本维护和样本变化管理 为了保持样本量,从《移民脉搏》调查的第五轮开始,数据将保持横断面结构,同时采取适当措施以最大化所选来源的响应率和重新联系率。 预计将进行多次联系尝试,在考虑个体为“丢失”观察之前。 因此,个体应在一天中的不同时间和一周中的不同日子进行联系。 只有当多次尝试联系同一家庭,并在几天和一天中的不同时间,包括周末时,才将观察视为“丢失”。 数据收集方式 --------------------------- 电话访谈 研究工具 --------------------------- 《移民脉搏》调查中使用的问卷类型由不同模块组成的问题列表,这些模块在收集和发布结果的过程中有所不同。 问卷的简洁性旨在快速和及时地收集数据,该问卷是为电话访谈设计的,访谈时间应持续25至30分钟。 以下将介绍第五轮收集和发布结果中问卷的结构及其每个模块的目标。 模块识别:包含旨在捕获受访者身份、性别和年龄、国籍、合法化文档访问、在哥伦比亚的居住情况、拥挤程度以及能够回答家庭问题的人(代表)的提问。 家庭特征模块:旨在获取有关家庭中哥伦比亚人和委内瑞拉人数量的信息,与儿童或青少年的共同居住情况,教育访问,辍学和学校歧视等信息。 移民状况模块:包含旨在获取有关移民前居住地、居留意愿、继续移民旅程意愿、移民前联系和家庭成员团聚的信息的提问。 健康模块:调查健康状况、在哥伦比亚的健康保险制度中的投保情况、养老金制度投保情况以及访问医疗服务的困难。 劳动力市场模块:包含旨在获取有关在原国的工作和活动、当前情况、合同类型以及访问就业、金融服务和向委内瑞拉发送汇款的困难程度的提问。 感知和歧视模块:旨在了解歧视的原因和地点、移民的文化身份、对贫困的感知、与父母生活水平的比较以及对孩子生活水平的感知。 值得注意的是,在《移民脉搏》调查问卷的设计中,采用了评估可行性标准,例如与调查目标的关系、相关性、受访者清晰度、替代信息来源的可用性等。 此外,对该应用进行了测试,以确保不会影响验证规则,并验证了问题的措辞是否适合受访者的理解,从而确保收集到的信息符合所要测量的范围。 数据清理操作 --------------------------- 创建数据库(ORACLE) 需要数据库引擎和为研究创建的架构,以允许数据的加载和存储。 分配的研究数据库是一个关系数据库,其中《移民脉搏》调查对每个人有一个唯一记录。 必须分配调查编号并定义数据类型、问题文本、关联值列表、子问题等。 同样,定义表单。 此外,建立了每个问题的流程和验证。 在表单结构中,必须将每个问题与Oracle中相应问题的代码关联。 同样,作为设计的一部分,在Pentaho Data Integration中创建了一个ETL(提取、转换和加载),并将信息加载到数据库表。 数据文件合并 --------------------------- 信息加载 将信息加载到数据库的过程是通过选择由MySurvey平台生成的平面文件和由Pentaho Data Integration创建的ETL(提取、转换和加载)来实现的,该ETL加载了数据。 在开始加载过程时,验证了每个调查的唯一性,以确保信息中不存在重复。 数据字典 --------------------------- 在数据字典中,描述了由操作统计数据的表格生成的所有变量的元数据,包括变量名称、代码、类型、扩展、相关问题的文本以及答案选项。 数据字典是根据问卷中问题的编码构建的。在问卷定期审查和调整时,它也会更新。 审查和验证 --------------------------- 记录了用于审查和验证从收集或收集中形成的文件的过程,考虑到重新咨询受访者或数据来源的可能性。 此外,与物流和系统团队一起,每周审查收集到的信息,以检测可能需要通过实地验证和纠正的不一致,以确保收集到的信息质量。 数据编辑工具的设计(验证和一致性)和数据插补 --------------------------- 信息一致性 通过开发Oracle的语句,识别了可能的重复性问题,这些问题可能发生在个人层面。 生成了报告,允许持续监控和控制收集到的信息。 随后,在Oracle中设计的架构中创建了验证数据库信息的程序,流程、变量缺失、范围和结构,以获得一致的数据库。 因此,每个操作都存储在其自己的数据库架构中。这允许数据与来自其他操作的信息保持隔离,并且通过数据库管理系统本身的角色和权限机制实现对用户的访问权限。 数据生成表格的设计 --------------------------- 调查主题团队从系统团队那里接收格式为DTA的文件,其中包含生成要发布的输出表格的规范。随后,从样本团队那里接收扩展因子,主题团队使用这些扩展因子生成最终的输出表格,这些表格允许查看调查结果。这些表格以XLS格式生成,并包含在附件中。经过审查,由主题团队生成的表格,如果需要,将进行调整。输出表格针对全国总体生成。对于《移民脉搏》调查结果的分析和传播,已定义了按性别、年龄和家庭规模分解的输出表格。 响应率 --------------------------- 人口覆盖率:103.5% 家庭覆盖率:92.4% 抽样误差估计 --------------------------- 结果分析过程包括: 结果分析方法 --------------------------- 允许验证《移民脉搏》调查的一致性和质量的以下方法、技术和程序: ·一致性分析 可能存在于操作中的错误,这些错误不依赖于样本选择,例如可能源于问卷设计、直接来自信息来源的填写说明的误解、收集员的填写说明误解或概念上的缺陷,在捕获、处理文件、生成结果或处理新情况时。 如前所述,现场监督员负责审查和分析收集到的信息的一致性。 收集期结束后,物流团队负责整合和清理潜在的矛盾,并将这些基础提供给生成新可能的矛盾列表的团队进行审查。 ·情境分析 通过对比前几轮的结果进行情境分析。通过情境分析,可以确定结果与类似或平行于EPM讨论的议题的测量程度是否一致。这允许验证信息与大型活动群体的一致性,但不应理解为调查之间的比较,因为每种情况的方法都不同。 ·可比性分析 通过与EPM的月度结果进行比较进行对比。 ·统计分析 进行以下分析: • 描述性分析,有助于通过表格和图表观察研究样本的行为。 • 分析样本中的指标结构,从频率分布中检测可能的矛盾。 • 验证扩展因子的调整不会在估计中产生偏差,并且其抽样误差符合研究领域的参数设定的可接受水平。 • 验证在分解结果时,变异系数不会太高,以至于阻碍统计推断。 • 单变量分析 这包括对每个研究变量的单独分析,即基于单一变量的分析。最常见的方法是频率分布、趋势测量分析和变量分散测量分析。 变量的频率分布需要观察变量类别的分布情况,可以是绝对值或相对值,这些通常伴随着统计图表(如直方图、饼图等),以方便理解和分析。 • 双变量分析 不适用。 • 多变量分析 不适用。 匿名化微观数据 --------------------------- 主题团队确定在将要发布的数据库中必须匿名化的变量,并从最终数据库中生成一个文件,该文件发送到系统区域。该区域随后执行该过程,将文件发送回主题区域进行验证和批准,然后发布在DANE的网站上。 根据匿名化协议,不包括与住宅识别相关的变量,如地址、街区、电话号码等,以及个人识别数据。 由于EPM是GEIH的一个子样本,允许使用目录变量、序列和顺序作为识别键,并使用上一年同一月份的GEIH数据。 通过此过程,旨在保证统计保密性,同时便于信息的使用。 微观数据匿名化验证 --------------------------- 主题团队将审查必须匿名化的变量,这些变量在数据库中不应在DANE的网站上发布。 专家委员会 --------------------------- 由于《移民脉搏》调查是一种实验性统计,没有官方的专家委员会,但与世界银行、USAID、美洲开发银行等机构有工作小组,以确定主题、问卷、样本、收集方法和讨论结果,以确保调查的官方性。
提供机构:
microdatos.dane.gov.co

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作