Gran Encuesta Integrada de Hogares - GEIH - 2019 - San Andrés (II Semestre) - Colombia
收藏microdatos.dane.gov.co2020-05-20 更新2025-03-23 收录
下载链接:
https://microdatos.dane.gov.co/index.php/catalog/667
下载链接
链接失效反馈官方服务:
资源简介:
Resumen
---------------------------
El Departamento Administrativo Nacional de Estadística - DANE ha desarrollado encuestas de hogares desde finales de la década del 60 cuando adelantó encuestas de fuerza de trabajo e ingresos y gastos de manera transversal.
La recolección de la Gran Encuesta Integrada de Hogares empezó el 7 de agosto de 2006 en su módulo central de mercado laboral e ingresos y, a partir del 11 de septiembre, con su módulo de gastos de los hogares. A partir del 10 de julio de 2006 se amplió la cobertura de la ECH a 11 ciudades adicionales a las trece principales ciudades y áreas metropolitanas, al resto de cabeceras y al resto rural; cobertura que en la actualidad mantiene la GEIH.
En este documento podrá encontrar la evolución histórica de la medición del mercado laboral en Colombia y las principales características técnicas de la Gran Encuesta Integrada de Hogares.
La explicación del marco conceptual y diseño temático de la encuesta respaldada por recomendaciones de organismos internacionales que regulan y estandarizan los conceptos con el fin de asegurar la comparabilidad entre los países en materia de mercado laboral.
La descripción del diseño estadístico permite tener claridad sobre el marco muestral y los procedimientos de definición de la muestra y el alcance de la misma en términos de estimación y análisis de resultados.Así mismo el documento expone cada proceso de la producción estadística desde las actividades preparatorias al operativo de campo, pasando por la recolección, la transmisión y procesamiento de datos y los métodos de control de calidad, para finalizar con los procesos de análisis y difusión de los datos.
A este documento lo acompañan como anexos el formulario de la encuesta, el listado de cuadros disponibles al público por medio del banco de datos y el listado de clasificaciones internacionales adoptadas por la Gran Encuesta Integrada de Hogares.
Geographic coverage
---------------------------
Tiene cobertura nacional que permite obtener resultados para cabeceras y resto, ciudades y áreas metropolitanas, grandes regiones y total por departamento.
Analysis unit
---------------------------
UNIDAD DE MUESTREO
La unidad de muestreo es la Medida de Tamaño, MT, o segmento. La medida de tamaño o segmento está conformada por un promedio de diez viviendas las cuales se indagan todas, se incluyen todos los hogares de cada vivienda y cada persona de cada hogar.
UNIDAD DE OBSERVACIÓN
La unidad de observación son aquellos conjuntos de elementos que componen el universo con una característica específica. En este caso la unidad básica de observación es el hogar.
Universo de estudio
---------------------------
El universo para la Gran Encuesta Integrada de Hogares está conformado por la población civil no institucional, residente en todo el territorio nacional,
Kind of data
---------------------------
Encuesta por muestreo (ssd)
Sampling procedure
---------------------------
MARCO MUESTRAL
Está constituido por el inventario cartográfico y el listado de viviendas obtenidas de la Muestra Maestra de Hogares, con actualizaciones permanentes y nuevos recuentos de edificaciones y viviendas a través de la misma.
TIPO DE MUESTREO
Teniendo en cuenta los objetivos y las características del marco, se optó por una muestra probabilística, estratificada, de conglomerados, multietápica, los cuales se presentan a continuación:
- PROBABILÍSTICA
Cada unidad de la población objetivo tiene una probabilidad de selección conocida y superior a cero. Este tipo de muestra permite establecer anticipadamente la precisión deseada en los resultados principales, y calcular la precisión observada en todos los resultados obtenidos.
- ESTRATIFICADA
Este método asegura una mejor precisión de la muestra, al disminuir la varianza de las estimaciones, los criterios de estratificación son:
· El primer estrato corresponde a las 24 capitales y áreas metropolitanas con dominios de estudio independientes. Cada ciudad o área metropolitana es autorrepresentada. Para la estratificación y selección de la muestra, las áreas geográficas se organizaron, según los principios cartográficos establecidos, en sectores, secciones y manzanas con la información del número de viviendas a nivel de manzana y el estrato socioeconómico.
· El segundo estrato corresponde al resto urbano y al resto de cabeceras, centros poblados y rural disperso. Los municipios se estratificaron de acuerdo con los siguientes criterios:
- Geográficos, a nivel de regiones constituidas por varios departamentos.
- Socioeconómicos, a nivel municipal, con los siguientes indicadores:
- Nivel de urbanización, en términos de la cantidad de población de las cabeceras municipales.
- Estructura urbano-rural de la población municipal (% de población en cabecera).Proporción de la población con necesidades básicas insatisfechas (NBI), la cual, a su vez, se clasificó en 4 intervalos: A [0-29,8%); B [29,8%-42,7%); C [42,7%-57,3%); y D [57,3%-100%].
- Tamaño poblacional del estrato.
Cada municipio con 7.000 o más habitantes en su población total, se constituyó en Unidad Primaria de Muestreo, UPM. Los de menor población se agruparon con uno vecino para constituirse en UPM.
Las UPM cuyo tamaño era similar al tamaño promedio de los estratos, se constituyeron en estratos de "certeza"; para efectos probabilísticos tuvieron probabilidad 1. Las demás UPM se agruparon en estratos de no certeza , aplicando las variables de estratificación en el orden de prioridad especificado antes.
DE CONGLOMERADOS
Corresponde a la unidad final de muestreo, que es la medida de tamaño o segmento; es el área que contiene un promedio de diez viviendas, en la cual se investigan todas las viviendas, todos los hogares y todas las personas.
La concentración de la muestra en conglomerados presenta grandes beneficios en el nivel operativo; lo cual reduce, en forma considerable, los tiempos y los costos, y facilita la supervisión.
MULTIETÁPICA
Unidades Primarias de Muestreo (UPM). Hay UPM de inclusión forzosa y de inclusión probabilística:
- Son de inclusión forzosa las áreas metropolitanas y el resto de capitales departamentales que son autorrepresentadas, pues su tamaño muestral permite estimaciones trimestrales separadas para cada una de ellas, y aquellos municipios de tamaño intermedio cuya población es similar o mayor que el tamaño promedio de los estratos de su departamento.
- Son de inclusión probabilística las UPM seleccionadas con PPT de los estratos conformados por dos o más UPM (estratos de no certeza). La técnica de selección controlada utilizada permitió mediante un procedimiento probabilístico incrementar las probabilidades de selección de las combinaciones preferidas de UPM que podían ser seleccionadas en un departamento, adicionalmente a lo obtenible con un muestreo estratificado corriente.
En el caso de la Muestra Maestra la selección controlada proporcionó un mejor balance interregional en las características de las UPM seleccionado. El resultado final de este ejercicio fue lograr la máxima reducción posible en el error estándar de estimación de los resultados.
Unidades Secundarias de Muestreo (USM):
En las cabeceras municipales y centros poblados, las USM son grupos de manzanas contiguas del mismo municipio, que contienen un mínimo de 12 medidas de tamaño (MT) con un promedio de 10 viviendas, y en la zona rural dispersa, la USM es una sección o sector censal. El tamaño de la USM permite un control adecuado de la distribución y rotación de la muestra con cada encuesta. Para la selección de las USM se aplica el siguiente procedimiento (PPT):
· Conformación, delimitación y listado de las USM por estrato socioeconómico (solo cabeceras municipales) de cada municipio seleccionado, siguiendo el orden de la nomenclatura de la cartografía censal: sector, sección y manzana.
· Cálculo del número de medidas de tamaño (MT), dividiendo por 10 (el número de viviendas) y aproximando a un valor entero.
· Cálculo de intervalo de muestreo (IM), dividiendo el total de MT existentes en una zona por el número de USM requeridas en la muestra de la zona.
· Selección de un número de arranque entre 1 y el valor del intervalo, el cual indica la primera USM de la muestra de la zona; y selección del resto de USM de la zona, sumando sucesivamente el IM al número de arranque.
Unidades Terciarias de Muestreo (UTM). El tercer paso es la selección dentro de cada USM de una o más UTM, dependiendo de las requeridas, del tamaño y cantidad de USM preseleccionadas en cada municipio.
Cada UTM es un segmento con un promedio de 10 viviendas contiguas (5 a 14 viviendas), es decir, una medida de tamaño (MT). En un paso intermedio, se seleccionan manzanas en las cabeceras municipales, centros poblados y segmentos de sección rural claramente delimitados, con límites naturales (quebradas, ríos, etc.) o sociales (carreteras, caminos, etc.). Los segmentos de los sectores rurales se conforman previamente con base en fotografías aéreas y en lo posible, se procura que tengan un promedio de 10 viviendas; sin embargo, por insuficiente detalle cartográfico, los segmentos pueden tener dos o más MT.
La selección se hace con probabilidad proporcional al número de MT (PPT), así una manzana o segmento rural puede contener una o más MT, y las que tienen menos de 5 viviendas se juntan con una manzana vecina del mismo estrato socioeconómico.
Las áreas urbanas no urbanizadas se anexan al área o manzana vecina muy cercana con una o más viviendas con el objeto de que tengan probabilidad de selección y para que puedan captar cualquier proceso futuro de urbanización. Si solo se requiere una MT y la manzana o porción solo tiene una MT, la muestra queda constituida por todas las viviendas y hogares existentes. Si la manzana o segmento rural tienen dos o más MT se procede al recorrido y delimitación de segmentos de una MT, en el terreno. Finalmente, se hace la asignación aleatoria del orden en que entrarán los segmentos al proceso de rotación.
Unidades Cuartas de Muestreo (UCM). Cada UCM es un segmento de 10 viviendas contiguas (5 a 14 viviendas), es decir una medida de tamaño MT y su selección es aleatoria.
Finalmente se hace una asignación aleatoria del orden en que entrarán los segmentos al proceso de rotación. En este proceso de selección por etapas, solo se requiere una actualización cartográfica detallada de las áreas seleccionadas.
Para el estrato de resto de cabeceras, centros poblados y rural disperso se seleccionó:
- En una primera etapa, la UPM, utilizando la técnica de selección controlada dentro de cada estrato.
- Para la segunda etapa se seleccionó en la zona urbana la manzana, y en la al resto de cabeceras, centros poblados y rural disperso la sección, o sea la USM.
- En la tercera etapa se seleccionó el segmento o UTM.
En este proceso de selección por etapas sólo se requiere una actualización cartográfica detallada de las áreas seleccionadas.
DEFINICIÓN TAMAÑO DE LA MUESTRA
Inicialmente el tamaño de la muestra mensual correspondía aproximadamente a 23 000 hogares. En el año 2000 con la implementación de la ECH la muestra maestra fue ampliada de 165 a más de 240; con 30 000 hogares en 13 áreas y 7 500 en el resto de cabeceras, centros poblados y rural disperso. Durante 2004 se amplió la muestra maestra, con un total de 44 400 hogares, con 30 000 hogares en 13 áreas y 14 400 en el resto de cabeceras, centros poblados y rural disperso. Para el año 2006 con la implementación de la GEIH, se amplió la muestra a 11 ciudades más; con 17 600 hogares adicionales, para un total de 62 000 hogares. Con el nuevo marco generado por el censo 2005, la nueva muestra implementada desde 2009 está conformada por 437 municipios y anualmente se visitan aproximadamente 248.028 hogares, concentrados en 22.548 segmentos. La muestra mensual es de 20.669 hogares, 18.790 viviendas y 1.879 segmentos.
Los tamaños de muestra se calculan con una precisión deseada de la variable tasa de desempleo no superior a un error estándar relativo del 5% y una tasa de desempleo del 10%. Los cálculos se realizan con las fórmulas correspondientes al tipo de diseño muestral. Se ajustan con base en el efecto de los conglomerados en el diseño (deff), que es una relación, para cada dominio, entre la varianza real de este diseño de conglomerados y la que se obtendría con un diseño aleatorio simple de elementos.
Mode of data collection
---------------------------
Entrevista personal asistida con DMC (dispositivo móvil de captura)
Research instrument
---------------------------
DISEÑO DE INSTRUMENTOS
El instrumento desarrollado para la recolección de información de la GEIH, cuenta con una serie de preguntas e incorpora los siguientes capítulos y módulos
LETRA: A
NOMBRE DEL CAPÍTULO: Identificación
NÚMERO DE PREGUNTAS: 19
LETRA: B
NOMBRE DEL CAPÍTULO: Vivienda
NÚMERO DE PREGUNTAS: 5
LETRA: C
NOMBRE DEL CAPÍTULO: Datos del hogar
NÚMERO DE PREGUNTAS: 15
LETRA: D
NOMBRE DEL CAPÍTULO: Registro de personas
NÚMERO DE PREGUNTAS: 4
LETRA: E
NOMBRE DEL CAPÍTULO: Características generales
NÚMERO DE PREGUNTAS: 8
LETRA: F
NOMBRE DEL CAPÍTULO: Seguridad social en salud
NÚMERO DE PREGUNTAS: 7
LETRA: G
NOMBRE DEL CAPÍTULO: Educación
NÚMERO DE PREGUNTAS: 5
LETRA: H
NOMBRE DEL CAPÍTULO: Fuerza de trabajo
NÚMERO DE PREGUNTAS: 14
LETRA: I
NOMBRE DEL CAPÍTULO: Ocupados
NÚMERO DE PREGUNTAS: 65
LETRA: J
NOMBRE DEL CAPÍTULO: Desocupados
NÚMERO DE PREGUNTAS: 14
LETRA: K
NOMBRE DEL CAPÍTULO: Inactivos
NÚMERO DE PREGUNTAS: 10
LETRA: L
NOMBRE DEL CAPÍTULO: Otras actividades
NÚMERO DE PREGUNTAS: 1
LETRA: M
NOMBRE DEL CAPÍTULO: Ingresos no laborales
NÚMERO DE PREGUNTAS: 4
LETRA: N
NOMBRE DEL CAPÍTULO: Módulo de Micronegocios
NÚMERO DE PREGUNTAS: 6
LETRA: O
NOMBRE DEL CAPÍTULO: Módulo Formación para el trabajo *
NÚMERO DE PREGUNTAS: 16
LETRA: P
NOMBRE DEL CAPÍTULO: Módulo de Fecundidad
NÚMERO DE PREGUNTAS: 11
LETRA: Q
NOMBRE DEL CAPÍTULO: Módulo de Migración
NÚMERO DE PREGUNTAS: 7
LETRA: R
NOMBRE DEL CAPÍTULO: Módulo de Trabajo Infantil **
NÚMERO DE PREGUNTAS: 23
*A partir de 2013 aplica en el segundo trimestre de cada año.
** A partir de 2012 aplica en el cuarto trimestre de cada año.
El equipo de Temática Social elabora un Manual de diligenciamiento y conceptos básicos, que acompaña al formulario, él cual es guía para los recolectores en campo.
Cleaning operations
---------------------------
CONSOLIDACIÓN DE ARCHIVOS
Los datos provenientes del área geográfica en donde se aplica la investigación se consolidan diariamente, y pueden ser monitoreados por el área temática y sistemas
Para enviar la información al DANE Central, se utiliza la herramienta Swin que genera un archivo comprimido asignándole un nombre, que indique la investigación, ciudad y fecha a que corresponde la información contenida; luego se copia al servidor destinado para el proceso de transmisión, utilizando el protocolo FTP en la carpeta asignada para ello y confirmar inmediatamente que la información está en dicho servidor, se envía mediante correo electrónico.
De igual forma, en el DANE Central se realizan las copias de respaldo necesarias y se aplican los planes de contingencia que garanticen el normal funcionamiento del operativo.
NORMAS DE VALIDACIÓN Y CONSISTENCIA
Validación de rangos de acuerdo con la estructura de las preguntas. Cuándo la pregunta tiene predefinidos las opciones de respuesta, es necesario controlar las opciones a mostrar dadas las restricciones que existen sobre unicidad o valor máximo posible de ocurrencia.
Validación de los universos. A este proceso lo definen tres aspectos: el primero, cuando la pregunta define un flujo o salto dependiendo de la opción; el segundo cuando los datos de la vivienda se toman una sola vez, así exista más de un hogar; el tercero, cuando se define en el universo según la edad de la persona residente en el hogar.
Para algunas variables relacionadas con la aplicación de conceptos básicos de la Gran Encuesta Integrada de Hogares que son determinantes en la calidad de la estructura de la información, el DMC permite que el entrevistador confirme la respuesta que da el entrevistado. Estas variables son: Número de hogares en la vivienda; nombres y apellidos; sexo; edad; parentesco; y todas las variables relacionadas con valores de los diferentes formularios.
En el diseño del programa se garantiza que en la misma pantalla se muestren el capítulo que está relacionada con las variables como las diferentes preguntas que por su alta correlación debe controlarse su consistencia.
Los anteriores aspectos hacen parte del documento "Especificaciones de normas técnicas de validación y consistencia" que tienen de forma detallada cada una de las preguntas de los formularios.
VERIFICACIÓN DE LA CONSISTENCIA INTERNA DE LOS DATOS Y AJUSTES
El proceso para controlar e identificar los datos faltantes, inválidos o inconsistentes se lleva a cabo mediante el análisis de la variable "Incompleta" que toma valor 0 cuando la encuesta se encuentra completa y se puede utilizar directamente de la base de datos, y toma valor 1 cuando la encuesta debe ser revisada por datos faltantes inválidos o inconsistentes.
IMPUTACIÓN Y/O AJUSTES DE COBERTURA
El procesamiento es centralizado por DANE Central, e inicia desde el momento en que las Direcciones Territoriales envían la información; los datos son transmitidos por FTP (File Transfer Protocol) y posteriormente cargados en la base de datos Oracle.
En esta operación estadística no se realiza el proceso de imputación, cuando los miembros de los hogares se niegan a responder la encuesta, esta no respuesta es ajustada con los factores de expansión, lo que se explica en el numeral 3.6.1 Componentes del factor de expansión
Response rate
---------------------------
COMPONENTES DEL FACTOR DE EXPANSIÓN
- Factor básico de expansión (F). Aplicado a los datos muestrales, da a cada elemento de la muestra el peso o representación que le corresponde en el universo investigado. En consecuencia, mediante su aplicación, se estiman numéricamente, en forma aproximada, las características de la población objetivo.
- Peso de submuestreo (Ph). Está dado por segmento y es teóricamente igual a 1 para todos los segmentos en razón de que representan una medida de tamaño. El desarrollo dinámico del marco de muestreo en algunos casos puede ser mayor o menor que 1, de acuerdo con la densidad de viviendas del segmento en el momento de hacer la encuesta, y por tal motivo modifica el factor básico de expansión en el segmento.
- Ajuste de cobertura por no respuesta (Rh). Cuando las tasas de no respuesta varían en los subgrupos de la población de diferentes características, el ajuste normal es asignar a los hogares y a las personas no encuestadas el promedio de las características de los encuestados en el mismo segmento. Esto se logra corrigiendo el factor básico de expansión por un nuevo factor resultante de la razón entre el número de hogares seleccionados en un segmento y el número de hogares encuestados en el mismo segmento.
- El factor final de expansión (Wh). Es el producto de los anteriores y se aplica a cada segmento de la ciudad o área investigada.
AJUSTE POR LOS VALORES POBLACIONALES
Las estimaciones del universo de estudio pueden ser mejoradas, si se equiparan a nivel de las desagregaciones geográficas los totales de la población obtenidos de la muestra expandida, con los totales del censo de población proyectados a la fecha de la encuesta. Dicho mejoramiento se basa en la premisa de que la estructura por desagregaciones geográficas, proyectada a partir de un censo de población reciente, es más exacta que la estimada a partir de la muestra.
Se aplican los estimadores de regresión utilizando la información auxiliar correspondiente a las Proyecciones de Población del CENSO 2005, en este caso, se ha usado la información auxiliar por grupos de edad y sexo. Este proceso se realiza a través de los Métodos de Calibración que son procedimientos que utilizan información auxiliar relacionada con las variables de estudio, con el fin de mejorar la precisión y reducir los sesgos en las estimaciones.
ESTIMADOR DEL TOTAL
Para aplicar el método de calibración se establecieron los siguientes ocho grupos:
SEXO:
- Hombres
- Mujeres
Y para cada uno los siguientes grupos de EDAD:
- De 0 a menores de 12 años (para el caso urbano, en lo rural 10 años).
- 12 a menores de 25 años
- 25 a menores de 55 años
- 55 años y más
Con la información del total de personas en las proyecciones de población, en cada grupo de calibración se construye el vector de totales.
Donde cada variable x da la cantidad de personas en cada grupo den la vivienda.(Se hace a nivel de vivienda ya que es la unidad de análisis más agregada, de esta manera a la vivienda le corresponde un único factor de expansión que es el mismo de los hogares y personas que viven en ella).
El cálculo del ajuste por calibración se realizó utilizando la macro Clan 97 v3.1 software creado por Statistics Sweden que corresponde a un conjunto de rutinas en el programa SAS para la estimación puntual y de errores en encuestas por muestreo.
ESTIMADOR DE RAZÓN
Las tasas, razones, proporciones y promedios, generadas a partir de este diseño muestral son de la forma de una razón, en la cual el numerador y el denominador son variables aleatorias.
ESTIMADOR DE LA VARIANZA PARA UNA RAZÓN
Para estimar la varianza del estimador de una razón se debe transformar la variable en una función lineal, para esto se utiliza el método de Linealización de Taylor.
Sampling error estimates
---------------------------
ANÁLISIS ESTADÍSTICO
Los principales indicadores que se utilizan en el análisis estadístico de los resultados son:
Cobertura de viviendas: se obtiene de cruzar la información de viviendas iniciales seleccionadas, contra viviendas finales encontradas.
Cobertura de hogares: se obtiene de cruzar la información del total de encuestas completas contra el total de hogares encontrados.
Calidad de la recolección: se obtiene de identificar el número de errores cometidos durante la recolección.
Errores e inconsistencias: se obtiene de la realización de diversas pruebas que ayudan a constatar que los cálculos estén bien hechos y que los datos sean coherentes.
Alarmas: se obtienen al hacer una búsqueda de datos que se salgan de los estándares, como: alto número de viviendas vacantes, alto número de rechazos, bajo promedio de personas, entre otros.
Informe de cobertura campo vs Sistemas: se obtiene de cruzar la información que las sedes y subsedes envían al DANE Central en los resúmenes de cobertura sobre viviendas, hogares y personas encontradas, contra la información que es transmitida al área de sistemas.
Indicador de puntualidad: busca garantizar que la información enviada por las sedes y subsedes sea oportuna.
Tasa de respuesta: se obtiene al medir en número de encuestas efectivas respecto a las esperadas. El objetivo de este indicador es identificar el grado de eficacia en el que se encuentra la investigación con respecto al proceso operativo de recolección.
Para garantizar la calidad de la información es necesario tener en cuenta las siguientes normas:
- El personal de campo y oficina, a saber: recolectores y supervisores, ha de ser evaluado periódicamente.
- Por lo menos dos veces a la semana, el líder de la GEIH en cada ciudad debe hacer una reunión con el personal de campo para solucionar casos especiales, analizar el desarrollo del proyecto en cuanto a cobertura, no respuesta, cartografía, manejo de la muestra, etc.
- Los recolectores deben ser rotados de supervisor y de zonas de la ciudad.
- Mensualmente, el líder de la GEIH de cada ciudad debe enviar al DANE Central un informe de la justificación de la variación de las tasas de mercado laboral según formato establecido.
- Las cargas de trabajo deben ser evacuadas en su totalidad en la semana respectiva, y por ningún motivo dejar trabajo de recolección para la semana siguiente.
- El personal de campo debe tomar obligatoriamente un día de descanso a la semana, según convenga, para el desarrollo óptimo del operativo.
- En cada ciudad se debe conformar un "Comité Técnico de la Gran Encuesta Integrada de Hogares". Este comité tendrá como funciones principales hacer seguimiento, evaluar los aspectos metodológicos y operativos de la encuesta y producir las recomendaciones que considere pertinentes, las cuales deben ser enviadas al DANE Central junto con el informe mensual.
ANÁLISIS DE CONTEXTO
Este procedimiento está orientado al análisis tanto de la consistencia interna de los datos como del comportamiento del mercado laboral y su relación con otras variables macroeconómicas que sirvan de base para la formulación, el seguimiento y la evaluación de políticas.
Para realizar el análisis de contexto se llevan a cabo diferentes tipos de análisis como son:
- El análisis descriptivo ayuda a observar el comportamiento de la muestra en estudio, a través de tablas, gráficos, intervalos de confianza y estadísticas de tendencia y dispersión.
- Se analiza en la muestra la estructura de los indicadores por dominios de estudio a partir de la distribución de frecuencias, y se detectan posibles inconsistencias y valores atípicos. Se verifica la cobertura a nivel de segmento, viviendas, hogares y persona, y se observa la distribución de la pérdida de muestra para realizar los respectivos ajustes de la no respuesta.
- El análisis inferencial tiene como objetivo realizar la estimación de la muestra a la población objetivo. En este proceso se aplican los factores de expansión y se revisa la inferencia a la población objetivo establecida para los correspondientes dominios de estudio.
- Se verifica que los ajustes del factor de expansión no generen sesgos en las estimaciones, y que sus errores muestrales sean aceptables de acuerdo con los parámetros establecidos por dominios de estudio.
- El secretario técnico de la GEIH, el coordinador de Temática Social, el director de Metodología y Producción Estadística, el subdirector y el director del DANE revisan la consistencia de la información sobre los principales indicadores de mercado laboral IML y posteriormente se elaboran y organizan otros productos como son el boletín de prensa y la presentación de resultados. En este proceso se realiza análisis comparativos y se analiza la consistencia interna de la información frente a otras variables económicas.
- Temática Social analiza el dato por divulgar frente al mismo periodo del año inmediatamente anterior y respecto a otros periodos, y los de las demás variables según conceptos de fuerza de trabajo.
COEFICIENTE DE VARIACIÓN
Para medir la magnitud de la variabilidad de la distribución muestral del estimador, denominado error muestral, se usan el error estándar y el coeficiente de variación.
El coeficiente de variación se define como la relación porcentual del error estándar o raíz cuadrada de la varianza del estimador y el estimador, multiplicado por 100.
El valor de este coeficiente, expresado en porcentaje, permite evaluar la calidad de un procedimiento de estimación.
摘要
---------------------------
国家行政统计局(DANE)自20世纪60年代末开始进行家庭调查,当时进行了劳动力及收入与支出的横断面调查。
大综合家庭调查的收集工作始于2006年8月7日,其核心模块包括劳动力与收入,并于9月11日增加了家庭支出模块。自2006年7月10日起,综合家庭调查的覆盖范围扩展至13个主要城市及大都市区以外的11个其他城市,以及其他所有首府和农村地区;目前,这一覆盖范围由大综合家庭调查保持。
在本文件中,您可以找到哥伦比亚劳动力市场测量的历史演变以及大综合家庭调查的主要技术特征。
本调查的框架概念和主题设计得到了国际监管和标准化概念的组织的推荐,旨在确保各国在劳动力市场方面的可比性。
统计设计的描述有助于明确样本框架和样本定义的程序,以及其在估计和分析结果方面的范围。此外,该文件还详细介绍了从筹备活动到现场操作、数据收集、传输和处理,以及质量控制方法,最后是数据分析及数据传播的过程。
本文件的附件包括调查表格、通过数据库公开的图表清单以及大综合家庭调查采用的国际分类清单。
地理覆盖范围
---------------------------
具有全国覆盖范围,允许获得首府和其余地区、城市和大都市区、大区域以及按部门的总体结果。
分析单位
---------------------------
抽样单位
抽样单位是“规模测量”(MT)或“段”。规模测量或段由平均十户家庭组成,所有这些家庭都进行调查,包括每户的所有家庭和每个人。
观察单位
观察单位是构成宇宙的具有特定特征的元素集合。在本例中,基本观察单位是家庭。
研究范围
---------------------------
大综合家庭调查的研究范围由全国非机构化民用人口组成,居住在国土范围内。
数据类型
---------------------------
抽样调查(ssd)
抽样程序
抽样框架
是由地图册和从家庭主样本获得的住房清单组成,通过不断更新和通过同一方式进行的建筑和住房的新计数。
抽样类型
考虑到框架的目标和特征,选择了概率抽样、分层、聚类、多阶段抽样,以下为具体说明:
- 概率抽样
每个目标群体单位都有已知的且大于零的选中概率。这种类型的样本允许事先确定主要结果所需的精度,并计算所有结果中观察到的精度。
- 分层
这种方法确保了样本的更高精度,因为它减少了估计的方差,分层标准如下:
· 第一层对应于24个首都和大都市区,每个城市或大都市区都有独立的研究领域。每个城市或大都市区都是自我代表的。在分层和样本选择中,根据已建立的制图原则,地理区域被组织成部门、部分和街区,并提供了街区层面的住房数量和社会经济层级的详细信息。
· 第二层对应于剩余的城镇和首府、人口聚集点和农村散居地区。根据以下标准对市政进行了分层:
- 地理标准,在由多个部门组成的地区级别。
- 社会经济标准,在市政级别,以下指标:
- 城市化水平,在首府人口数量方面。
- 城乡人口结构(首府人口中所占百分比)。基本需求未满足(NBI)的比例,该比例又分为4个区间:A [0-29,8%);B [29,8%-42,7%);C [42,7%-57,3%);D [57,3%-100%]。
- 层的居民人口规模。
每个总人口为7,000或更多的市政构成了一个抽样单位(UPM)。人口较少的市政与相邻的一个市政组成一个UPM。
与平均层规模相似的UPM构成了“确定性”层;在概率上,它们具有概率1。其他UPM被组合成“非确定性”层,应用分层变量,按照之前指定的优先顺序进行。
- 聚类
对应于最终的抽样单位,即规模测量或段;是包含平均十户住房的区域,其中调查所有住房、所有家庭和所有个人。
在聚类中集中样本具有巨大的操作效益;这大大减少了时间和成本,并简化了监督。
- 多阶段抽样
抽样单位(UPM)。有强制性的抽样单位和非概率抽样单位:
- 强制性抽样单位是都市区和剩余的首府,因为它们的样本量允许为每个单独的都市区进行季度估计,以及那些人口规模与部门平均层规模相似或更大的中等规模市政。
- 概率抽样单位是通过PPT从由两个或更多UPM组成的层(非确定性层)中选择的。使用的选择控制技术允许通过概率程序增加在部门中可选择的UPM组合的选中概率,这超出了常规分层抽样的可能性。
在主样本的情况下,选择控制提供了在区域间特征上更好的平衡,从而实现了对估计结果标准误差的最大可能减少。
- 二级抽样单位(USM):在首府和人口聚集点,USM是同一市政连续的街区群,包含至少12个规模测量(MT),平均每街区10户住房;在散居的农村地区,USM是街区或街区。
USM的大小允许在每次调查中对样本的分布和轮换进行适当的控制。在选择USM时,应用以下程序(PPT):
- 按社会经济层级(仅限首府市政)对每个选定的市政的USM进行组成、界定和清单,遵循制图普查的命名顺序:部门、部分和街区。
- 计算规模测量(MT)的数量,通过除以10(住房数量)并四舍五入到整数。
- 计算抽样间隔(IM),通过将一个区域中现有的MT总数除以该区域所需样本的USM数量。
- 选择一个起始值在1和间隔值之间,该值指示该区域样本中第一个USM的位置;然后选择该区域的其他USM,通过连续地将IM加到起始值。
- 三级抽样单位(UTM)。在每USM内部选择一个或多个UTM,具体取决于每个市政中预选的USM的数量和大小。
每个UTM是一个包含平均10户连续住房的段,即规模测量(MT)。在中间步骤中,选择首府、人口聚集点和农村散居地区的街区,这些街区被清晰地界定,具有自然界限(山脊、河流等)或社会界限(道路、小路等)。农村部门的街区是基于航空照片预先组成的,尽可能保持每段有10户住房;然而,由于地图册细节不足,某些段可能包含两个或多个MT。
选择是通过按MT数量成比例的概率(PPT)进行的,因此一个街区或农村段可能包含一个或多个MT,而那些住房数量少于5户的则与同一社会经济层级的相邻街区合并。
将未城市化地区附加到非常靠近的具有一个或多个住房的街区或段上,以便它们有被选中的概率,并且能够捕捉任何未来的城市化进程。如果只需要一个MT,而街区或段只包含一个MT,则样本由所有现有的住房和家庭组成。如果街区或农村段有两个或多个MT,则进行一个MT的段轮换和界定,在实地进行。最后,对进入轮换过程的段进行随机分配顺序。
- 四级抽样单位(UCM)。每个UCM是一个包含平均10户连续住房的段,即规模测量(MT),其选择是随机的。
最后,对进入轮换过程的段进行随机分配顺序。在这个多阶段选择过程中,只需要对所选区域的制图进行详细的更新。
对于剩余的首府、人口聚集点和农村散居地区层,选择:
- 在第一阶段,使用选择控制技术选择UPM。
- 在第二阶段,在城市地区选择街区,在剩余的首府、人口聚集点和农村散居地区选择街区或USM。
- 在第三阶段,选择段或UTM。
在这个多阶段选择过程中,只需要对所选区域的制图进行详细的更新。
样本规模定义
---------------------------
最初,月样本规模约为23,000户家庭。2000年,随着综合家庭调查的实施,主样本从165个扩大到超过240个;在13个地区有30,000户家庭,在其余的首府、人口聚集点和农村散居地区有7,500户。2004年,主样本扩大到44,400户,其中13个地区有30,000户家庭,其余的首府、人口聚集点和农村散居地区有14,400户。2006年,随着大综合家庭调查的实施,样本扩大到11个城市;另外增加了17,600户家庭,总数达到62,000户。随着2005年人口普查产生的新框架,2009年开始实施的新样本由437个市政组成,每年访问约248,028户家庭,集中在22,548个段。月样本规模为20,669户家庭、18,790个住房和1,879个段。
样本规模的计算精度达到期望的失业率变量,不超过相对标准误差的5%,失业率为10%。计算使用相应的抽样设计公式。根据聚类设计(deff)的影响进行调整,deff是每个领域内该聚类设计的实际方差与随机简单元素设计的方差之间的比率。
数据收集方式
---------------------------
辅助设备(DMC)辅助的个人访谈
研究工具
---------------------------
研究工具设计
为收集大综合家庭调查的信息而开发的工具包含一系列问题,并包含以下章节和模块:
LETRA: A
章节名称:识别
问题数量:19
LETRA: B
章节名称:住房
问题数量:5
LETRA: C
章节名称:家庭数据
问题数量:15
LETRA: D
章节名称:人员登记
问题数量:4
LETRA: E
章节名称:一般特征
问题数量:8
LETRA: F
章节名称:社会保障和健康
问题数量:7
LETRA: G
章节名称:教育
问题数量:5
LETRA: H
章节名称:劳动力
问题数量:14
LETRA: I
章节名称:就业者
问题数量:65
LETRA: J
章节名称:失业者
问题数量:14
LETRA: K
章节名称:非活动者
问题数量:10
LETRA: L
章节名称:其他活动
问题数量:1
LETRA: M
章节名称:非劳动收入
问题数量:4
LETRA: N
章节名称:微型企业模块
问题数量:6
LETRA: O
章节名称:就业培训模块
问题数量:16
LETRA: P
章节名称:生育模块
问题数量:11
LETRA: Q
章节名称:移民模块
问题数量:7
LETRA: R
章节名称:童工模块
问题数量:23
*A partir de 2013 applies in the second quarter of each year.
**From 2012 applies in the fourth quarter of each year.
社会主题团队编制了一份填写指南和基本概念手册,作为表格的附录,为现场收集者提供指南。
数据清理操作
---------------------------
归档合并
来自应用研究地理区域的数据每日进行合并,并可由主题区域和系统进行监控。
要将信息发送到DANE中央,使用Swin工具生成一个压缩文件,并分配一个名称,指明调查、城市和包含信息的日期;然后将其复制到用于传输过程的指定服务器上,使用FTP协议在分配的文件夹中,并立即确认信息已在该服务器上,通过电子邮件发送。
同样,在DANE中央,进行必要的备份,并应用确保操作正常进行的应急计划。
- 验证和一致性规范
根据问题的结构验证范围。当问题具有预定义的响应选项时,需要控制显示的选项,考虑到存在的唯一性或最大可能发生次数的限制。
验证范围。此过程由三个方面定义:首先,当问题定义一个依赖于选项的流程或跳跃时;其次,当仅取一次住房数据时,即使存在多个家庭;第三,当根据居住在家庭中的个人的年龄定义范围时。
对于一些与大型综合家庭调查的基本概念相关且对信息结构质量至关重要的变量,DMC允许访谈者确认受访者的回答。这些变量是:住房中的家庭数量;姓名和姓氏;性别;年龄;亲属关系;以及与不同表格值相关的所有变量。
在设计程序中,确保在同一屏幕上显示与变量相关的章节,如不同的问题,这些问题的相关性很高,需要控制其一致性。
上述方面是“验证和一致性技术规范”文件的一部分,该文件详细说明了每个表格中的每个问题。
- 数据内部一致性验证和调整
通过分析变量“不完整”来控制、识别缺失、无效或不一致的数据,该变量在调查完整时取值为0,可以直接从数据库中使用,并在调查缺失、无效或不一致时取值为1。
- 覆盖范围和/或调整
处理由DANE中央集中进行,从领土办事处发送信息时开始;通过FTP(文件传输协议)传输数据,然后将其加载到Oracle数据库中。
在这个统计操作中,当家庭成员拒绝回答调查时,不进行填补过程;这种未回答被通过扩展因子进行调整,这在3.6.1节中进行了说明。
响应率
---------------------------
扩展因子的组成部分
- 扩展基本因子(F)。应用于样本数据,给样本中的每个元素分配在调查范围中的权重或代表性。因此,通过应用它,可以近似地估计目标群体的特征。
- 子样本权重(Ph)。由段给出,在理论上等于1,因为它们代表一个规模测量。在调查时,某些情况下段框架的发展动态可能大于或小于1,这取决于段的住房密度,因此会修改段的扩展基本因子。
- 非响应覆盖范围调整(Rh)。当不同特征的群体中非响应率不同时,正常的调整是将未调查的家庭和个人的特征分配给与同一段中调查的家庭和个人的平均特征。这通过纠正扩展基本因子来实现,该因子是一个新因子,由段中选定的家庭数量与同一段中调查的家庭数量之比得出。
- 最终扩展因子(Wh)。是前面的乘积,并应用于城市或研究区域中的每个段。
- 根据人口值进行调整
如果将根据人口普查得到的样本扩展的总数与按调查日期预测的普查人口总数进行地理分解,则可以提高对研究范围估计的准确性。这一改进基于以下假设:即从最近的人口普查中预测的按地理分解的结构更为精确,而不是从样本中估计的。
使用回归估计器,利用与人口普查预测相关的辅助信息,在这种情况下,使用了与年龄和性别相关的辅助信息。该过程通过校准方法进行,这些方法是使用与研究变量相关的辅助信息的相关信息,旨在提高估计的精度并减少偏差。
- 总估计量
为了应用校准方法,建立了以下八个组:
性别:
- 男性
- 女性
以及每个性别以下年龄组:
- 0至12岁以下(对于城市,农村10岁)。
- 12至25岁以下
- 25至55岁以下
- 55岁及以上
根据人口预测中的总人数,在每次校准组中构建总数向量。
其中每个变量x代表每个组在家庭中的每个人数。(在家庭层面进行,因为这是最聚合的分析单位,因此每个家庭只对应一个扩展因子,这与该家庭中的住房和居住在其中的人一样。)
校准调整的计算使用由瑞典统计局创建的Clan 97 v3.1宏软件进行,这是SAS程序中的一组用于估计调查抽样中点和误差的例行程序。
- 比率估计量
从这种设计抽样中生成的比率、比率、比例和平均值都是分数的形式,其中分子和分母都是随机变量。
- 比率估计量的方差估计量
为了估计比率估计量的方差,必须将变量转换为线性函数,为此使用泰勒线性化方法。
抽样误差估计量
---------------------------
统计分析
在统计分析结果中使用的指标主要包括:
住房覆盖率:通过交叉检查选定的初始住房和最终找到的住房信息获得。
家庭覆盖率:通过交叉检查完成的调查总数与找到的家庭总数获得。
收集质量:通过识别收集过程中犯下的错误数量获得。
错误和不一致性:通过执行各种测试来帮助证实计算正确,数据是一致的。
警报:通过在数据中搜索超出标准的数据获得,例如:高空的住房、高拒绝率、低平均人数等。
实地覆盖范围与系统之间的报告:通过交叉检查各总部和分总部发送给DANE中央的覆盖范围摘要,包括住房和人员找到的信息,与传输到系统区域的相同信息进行比较。
及时性指标:旨在确保总部和分总部发送的信息是及时的。
响应率:通过衡量实际有效的调查数量与期望数量的比率获得。该指标的目标是确定调查在收集过程中的操作效率。
为确保信息的质量,必须考虑以下规范:
- 应定期评估现场和办公室人员,即收集者和监督者。
- 每周至少两次,每个城市的GEIH领导必须与现场人员进行会议,以解决特殊案例,分析项目在覆盖范围、未响应、制图、样本管理等方面的进展。
- 收集者必须轮换监督员和城市区域。
- 每个月,每个城市的GEIH领导必须向DANE中央发送一份报告,说明根据规定的格式,市场劳动力率变化的合理性。
- 工作量必须在指定的一周内完成,不得将收集工作留到下周。
- 现场人员必须根据方便,每周至少休息一天,以优化操作。
- 在每个城市,必须成立一个“大综合家庭调查技术委员会”。该委员会的主要职能是跟踪、评估调查的方法论和操作方面,并就认为适当的事项提出建议,这些建议必须与月度报告一起发送给DANE中央。
- 分析背景
此程序旨在分析数据的内部一致性以及劳动力市场行为与其与其他宏观经济变量的关系,这些变量作为制定、跟踪和评估政策的基础。
为了进行背景分析,执行了不同类型分析,如:
- 描述性分析有助于通过表格、图表、置信区间和趋势和分散度统计来观察研究样本的行为。
- 在样本中分析指标的结构,根据研究领域的频率分布,检测可能的不一致和异常值。验证到段、住房、家庭和个人的覆盖范围,并观察样本损失分布,以执行相应的未响应调整。
- 推理分析的目标是估计样本到目标群体的估计。在此过程中,应用扩展因子,并检查对设定的研究领域的目标群体的推断。
- 检查扩展因子的调整是否会导致估计偏差,并确保样本误差在根据研究领域设定的参数内可接受。
- 大综合家庭调查的技术秘书、社会主题协调员、统计方法和生产统计主任、副主任和DANE主任检查了关于主要劳动力市场指标(IML)的信息的一致性,随后组织和编制了其他产品,如新闻稿和结果展示。在此过程中,进行对比分析,分析信息与经济
提供机构:
microdatos.dane.gov.co



