five

Encuesta de Hogares 2009 - Bolivia

收藏
catalog.ihsn.org2019-03-29 更新2025-01-15 收录
下载链接:
http://catalog.ihsn.org/catalog/4693
下载链接
链接失效反馈
官方服务:
资源简介:
Abstract --------------------------- PROPÓSITO - OBJETIVO GENERAL La Encuesta de Hogares 2009 (EH 2009) es un instrumento del Instituto Nacional de Estadística (INE), que tiene como objetivo suministrar información sobre las condiciones de vida de los hogares, a partir de la recopilación de información de variables socioeconómicas y demográficas de la población boliviana, necesarias para la formulación, evaluación, seguimiento de políticas y diseño de programas de acción en el área social. OBJETIVOS ESPECÍFICOS La Encuesta de Hogares 2009 tiene los siguientes objetivos específicos: 1. Generar indicadores que permitan conocer la evolución de la pobreza, del bienestar y las condiciones de vida de los hogares. 2. Medir el alcance de los programas sociales en la mejora de las condiciones de vida de la población. 3. Proveer información a instituciones públicas y privadas que permitan posteriores investigaciones relacionadas a las variables en estudio. METODOLOGÍA La EH 2009 presenta un panorama completo sobre las condiciones de vida de la población boliviana. La unidad de análisis para esta encuesta fueron los hogares de Bolivia, con unidades muestrales como los Sectores Censales, Segmentos Censales, Viviendas, y la implementación de las Unidades Primarias de Muestreo (UPM) que concuerdan con los sectores censales o una agrupación de ellos. Es una encuesta transversal con 4,260 viviendas seleccionadas. La metodología aplicada para la recolección de la información es la Entrevista Directa, conducida por personal debidamente capacitado que visitó las viviendas seleccionadas durante el periodo de recolección de información, utilizando una boleta multitemática que permite el estudio del bienestar de los hogares. ALCANCE TEMÁTICO a) Características Sociodemográficas. b) Migración. c) Salud. d) Educación. e) Condición de Actividad y Características Ocupacionales. f) Ingresos del Hogar. g) Gastos del Hogar. h) Características de la Vivienda. USUARIOS Y UTILIDADES Usuarios Productores: Dirección de Estadísticas e Indicadores Sociales del INE. Utilidad: Proporcionar información sobre la calidad de vida de la población boliviana y contribuir al mejoramiento de la metodología de trabajo utilizada en la planificación y ejecución de encuestas a hogares. Usuarios Internos: Dirección de Cuentas Nacionales, Dirección de Registros, Estadísticas e Indicadores Económicos (INE). Utilidad: Construcción de indicadores, variables macroeconómicas y creación de sistemas de información estadística socioeconómica. Usuarios Externos: Ministerios de Gobierno, Unidad de Análisis y Políticas Económicas (UDAPE), organismos internacionales (Banco Interamericano de Desarrollo, Banco Mundial, Comisión Económica para América Latina y el Caribe), investigadores, Organizaciones no Gubernamentales, medios de comunicación y población en general. Utilidad: Medición de indicadores de empleo, desempleo y subempleo, cálculo de indicadores de pobreza (Incidencia, Brecha y Severidad de la Pobreza), cálculo de indicadores de acceso y años de escolaridad, cálculo de indicadores demográficos. Elaboración y seguimiento de políticas de desarrollo económico y social. Geographic coverage --------------------------- La cobertura geográfica de la Encuesta de Hogares 2009 es a nivel nacional. La información es recolectada en los nueve departamentos del país, tanto en área urbana como rural, a partir de un diseño de muestra previamente determinado. Analysis unit --------------------------- La unidad de análisis de la Encuesta de Hogares 2009 son los hogares y personas. Universe --------------------------- La encuesta cubre a todos los miembros del hogar que residen en viviendas particulares. Kind of data --------------------------- Encuesta por muestreo (ssd)/Datos de una encuesta Sampling procedure --------------------------- ANTECEDENTES La encuesta se ejecuta mediante una muestra representativa a nivel nacional, realizando una distinción en cuanto al área urbano rural, además de utilizar un estrato que fue construido en base al NBI (Índice de necesidades insatisfechas) para mejorar la precisión de la encuesta. El diseño muestral engloba todos los aspectos teóricos dentro la teoría del muestreo estadístico, se utiliza un muestreo complejo utilizando los principios de la estratificación por conglomerados y el muestreo polietápico, incluyendo también al muestreo proporcional el tamaño y el muestreo sistemático. El marco muestral utilizado en esta encuesta es el denominado "Marco Maestro" que fue construido en base a la información generada del Censo Nacional de Población y Vivienda 2001, este es un marco de áreas que enmarca todo el territorio nacional, disgregado en unidades compuestas que dan el escenario ideal para la ejecución de un muestreo complejo. Dentro de los denominativos estadísticos este es un "Marco en sentido amplio" porque contiene variables que permiten la inmersión en la planeación de un muestreo complejo. DISEÑO MUESTRAL Cobertura del Estudio: La investigación está dirigida al conjunto de los hogares establecidos en viviendas particulares ocupadas de las ciudades capitales, resto urbano y área rural de Bolivia, en el periodo del año 2009 y excluye a los hogares constituidos en viviendas colectivas. De esta manera, el ámbito espacial es el territorio nacional y el ámbito temporal nos conduce al periodo 2009. Marco Muestral: El marco muestral con el que se trabaja es el que proporcionó el Censo Nacional de Población y Viviendas de 2001 (CNPV-2001) denominado "Marco Maestro" porque es considerado un marco en sentido amplio; es decir, tiene variables que permiten la estratificación y la conglomeración además, es un marco que contiene unidades de muestreo compuestas, entre UPM (Unidades Primarias de Muestreo), sectores censales, segmentos censales y otras variables auxiliares que permiten la aplicación del muestreo complejo en todas sus dimensiones al tener una conformación por viviendas contenidas dentro de cada unidad compuesta. Asimismo, una características importante de este marco es que se constituye en un "Marco de áreas", esto implica que toda Bolivia está representada en el mismo. Estratificación: Debido a que se cuenta con un marco muestral compuesto permite la utilización de un muestreo complejo. Este Diseño Muestral contiene cuatro etapas y además involucra una estratificación en primera etapa que será descrita a continuación. La estratificación siempre debe responder a un hecho de dividir a la población de estudio en grupos independientes que muestran diferencias notorias en cuanto a las respuestas de las unidades de información respecto a las variables que están dentro de la temática de interés para garantizar la precisión de los datos. En este entendido, la estratificación de la Encuesta a Hogares 2009 considera la unión de dos variables que forman grupos que entran dentro de la condición de estratos. La primera variable, identifica el área urbana o área rural de la UPM y la segunda, denominada estrato estadístico (NBI), es construida en base a los niveles del NBI que son: Necesidades Básicas Satisfechas (NBS), Umbral de Pobreza, Pobreza Moderada, Indigencia y Marginalidad. Los NBI de las áreas temáticas para el mapa de pobreza se clasificaron en cuatro subestratos denominados estratos estadísticos mediante el método estadístico de Clúster de k medias para los fines y objetivos establecidos en la Encuesta de Hogares, de acuerdo al siguiente criterio aproximado: 1. Estrato Alto; son aquellas unidades muestrales que se encuentran con las necesidades básicas satisfechas. 2. Estrato Medio Alto; son unidades muestrales que están en el umbral de pobreza. 3. Estrato Medio Bajo; son unidades muestrales que están en la clasificación de pobreza moderada. 4. Estrato Bajo; son unidades muestrales que están entre la indigencia y la marginalidad de pobreza. La estructura de las UPMs en la primera etapa con la estratificación Área Urbano Rural y Estrato estadístico NBI contiene 8 estratos independientes que asocian a las 16790 UPM del Marco Maestro. Unidades de Muestreo: Unidad de primera etapa: El marco muestral contiene 16790 unidades compuestas de muestreo denominadas UPM que engloban o enmarcan a todo el territorio nacional. Estas unidades se constituyen de la asociación de uno a más sectores censales por lo que serán utilizadas como las unidades primarias de muestreo. Unidad de segunda etapa: Por la estructura del marco muestral la unidad inmediatamente inferior a la UPM es el sector censal; la razón de elegir al sector como unidad secundaria de muestreo (USM) recae en el hecho de que si bien es cierto que una UPM es la asociación de uno o más sectores existe un 32.9% de UPMs que tienen más de un sector asociado lo que incide en que el manejo de esta situación en campo sea dificultosa porque en muchos casos los sectores dentro la UPM no son continuos. Unidad de tercera etapa: Esta unidad es denominada UTM (Unidad terciaria de muestreo) y refiere al "segmento censal" dentro el Marco Maestro. Es la unidad inmediatamente menor del sector censal, el número de segmentos por sector oscila entre lo más común de entre 5 a 7 segmentos, esta etapa será aplicada exclusivamente en el área rural dispersa, puesto que su utilidad es mayor en esta, debido al hecho de distancias y manejo en el operativo de campo. Unidad de cuarta Etapa: En esta etapa se entra a las viviendas dentro del segmento (área rural dispersa) y dentro el sector censal (área urbana, resto rural), así la UUM (unidad ultima de muestreo) es la vivienda, aclarando en este punto que serán excluidas del estudio las viviendas colectivas. Tamaño de la Muestra: La determinación del tamaño de la muestra, trata, en primer lugar de ser compatible con los niveles de estimación o dominios de estudio y la importancia de los estratos definidos, y en segundo lugar con las principales variables que son objeto de estimación. En ese entendido, el problema consiste en determinar el tamaño de muestra óptimo considerando las recomendaciones sobre el tópico de tamaño de muestra que se dan en el manual sobre Encuestas de Población Económicamente Activa de la Organización Internacional de Trabajo (OIT) y el Mapa de Pobreza generado en base a la información Censal de 1992 y 2001, respectivamente. El tamaño de muestra óptimo para estimar las proporciones multinomiales, en este caso la Condición o Estrato de Pobreza (1. Necesidades Básicas Satisfechas; 2. Umbral de pobreza; 3. Pobreza Moderada; 4. Indigencia; 5. Marginalidad), que es equivalente a la construcción de intervalos de confianza simultáneos para la variable pobreza que se ajusta a una distribución multinomial debido que está compuesto por 5 categorías. Distintos autores (Quesenberry y Hurts, 1964; Goodman, 1965; Tortora, 1978; Medina, 1998) han analizado procedimientos para determinar el tamaño de muestra necesario para proporciones multinomiales, que consiste en dividir una muestra de tamaño n en k (5) categorías exhaustivas y mutuamente excluyentes. Conforme a los cálculos habituales, se aconsejaría elegir entre 9869.65 y 9870 personas, situación que representa el 58% del número de selecciones sugeridas a partir del procedimiento propuesto por Tortora. En una primera aproximación se trató de fijar un tamaño de muestra, en términos del total de viviendas, que resulte compatible con la obtención de un error de muestreo de baja magnitud en las estimaciones. El tamaño se fijó suponiendo un Muestreo Aleatorio Simple (MAS) de viviendas, el cual se ajustó por un factor que da cuenta del "efecto de diseño (Deff)" en el tamaño, al muestrear por conglomerados (sectores censales) en lugar de viviendas. Otro de los aspectos necesarios es considerar en la determinación del tamaño de la muestra la cobertura de la encuesta con el propósito de identificar viviendas donde no se hizo la encuesta continua de hogares de 2003 - 2004, se tiene: n=(n0*Deff)/(1-TNR)=4260 Donde: TNR: Tasa de No Respuesta Máxima, 7.25%. Deff: Es el cociente de la varianza del diseño utilizado entre la varianza que resulta de utilizar el muestreo aleatorio simple, con un mismo tamaño de muestra. El cual es de 1.421. Asignación de la Muestra: El tamaño de muestra es de 4260 viviendas a nivel nacional, se utilizó un muestreo estratificado considerando 8 estratos y luego se distribuyó estas 4260 viviendas en los ocho estratos. Por un factor estrictamente operativo, el número de viviendas entrevistadas por UPM será de 12 con lo cual se tiene un total de 355 UPMs que serán asignadas a los estratos. Dentro de los requisitos deseables de la encuesta, se encuentra el hecho de recabar mayor información del área rural. Si bien, el área rural nacional en el marco muestral ocupa solamente un 28%, dentro de la muestra se asignará un 40% aproximado al área rural y el 60% restante al área urbana. La técnica de asignación utilizada fue la denominada "asignación de poder" (se obtuvo la distribución en 8 estratos considerados). Probabilidades de Selección: El muestreo en cuanto a la selección utiliza un muestreo PPT (Proporcional al tamaño) en sus tres primeras etapas, y en la última etapa una selección sistemática simple con arranque aleatorio. Sampling deviation --------------------------- La correspondencia entre las unidades efectivamente encuestadas y la muestra seleccionada fue la misma, no se registraron desviaciones del diseño muestral de la encuesta. Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- DISEÑO DE LOS CUESTIONARIOS: El diseño del cuestionario consiste en una boleta multitemática organizada en 8 secciones por lo que la boleta cubre las siguientes temáticas: SECCIÓN 1. CARACTERÍSTICAS GENERALES DEL HOGAR Y SUS MIEMBROS. Esta sección tiene preguntas que reflejan las características de los miembros del hogar, las cuales permitirán determinar la estructura de la población por sexo, edad y estado civil o conyugal. Parte A. Características Sociodemográficas (para todos los miembros del hogar). SECCIÓN 2. MIGRACIÓN. Las preguntas de esta sección están orientadas a investigar los desplazamientos de la población en los últimos 5 años, es decir, entre los años 2004 y 2009; así como también indagar sobre las razones por las que se produjeron los mismos. Parte A. Migración. SECCIÓN 3. SALUD. Con estas preguntas se indaga sobre el estado de salud de las personas menores de 5 años; asimismo, se evalúa la cobertura, estructura y gastos de los servicios de salud a los que dichas personas acceden. Parte A. Enfermedades Diarréicas Agudas (EDA) e Infecciones Respiratorias Agudas (IRA). Parte B. Vacunas. Parte C. Fecundidad. Parte D. Acceso a Servicios de Salud. SECCIÓN 4. EDUCACIÓN. En esta sección se indaga acerca de las características educativas de la población, principalmente aquellas referidas al alfabetismo y analfabetismo, máximo nivel y curso de instrucción alcanzado, matriculación, asistencia e inasistencia, razones de inasistencia, deserción y cobertura del sistema educativo. Parte A. Formación Educativa. Parte B. Repitencia y Causas de Inasistencia. Parte C. Uso Individual de TICs (Tecnologías de Información y Comunicación). SECCIÓN 5. EMPLEO. El objetivo de esta sección, es clasificar a la población según su condición de actividad y considera tres categorías básicas que son: Población ocupada, Población desocupada y Población económicamente inactiva. Parte A. Condición de Actividad. Parte B. Ocupación y Actividad Principal. Parte C. Ingresos del Trabajador Asalariado. Parte D. Ingresos del Trabajador Independiente. Parte E. Ocupación y Actividad Secundaria. Parte F. Ingreso Laboral de la Ocupación Secundaria. Parte G. Subutilización de Mano de Obra. SECCIÓN 6. INGRESOS NO LABORALES DEL HOGAR. Son ingresos que el hogar puede percibir, tanto con regularidad mensual como anual y cuya procedencia no es la de una actividad económica. Parte A. Ingresos no Laborales. Parte B. Ingresos por Transferencias. Parte C. Remesas. SECCIÓN 7. GASTOS. Esta sección permite cuantificar y estudiar las características de los gastos que realiza el hogar en la adquisición de bienes y servicios de consumo final. El detalle de productos que contiene la sección de gastos considera los productos de mayor importancia y frecuencia de consumo. Parte A. Gastos en Alimentos y Bebidas Consumidas fuera del Hogar. Parte B. Gastos en Educación. Parte C. Gastos en Alimentación dentro del Hogar. Parte D. Gastos no Alimentarios. Parte E. Equipamiento del Hogar. SECCIÓN 8. VIVIENDA. El objetivo de esta sección es medir el acceso a servicios básicos, las condiciones de la vivienda y la pobreza en relación a las necesidades básicas insatisfechas. La información lograda, permitirá medir la magnitud de los problemas de déficit habitacional y orientar la acción institucional en el diseño de políticas sociales que respondan a las necesidades del país. Asimismo, las preguntas permiten conocer la tenencia, disposición y/o acceso a la Tecnología de Información y Comunicación. Parte A. Características de la Vivienda. Parte B. Acceso a TICs en Hogares. TIPO FUNCIONAL El cuestionario es semiestructurado ya que presenta preguntas precodificadas y preguntas abiertas. Específicamente, las características de las preguntas de la boleta son las siguientes: - Preguntas cerradas: Son las que tienen respuesta predeterminadas, en ellas se debe anotar sólo el código asignado a la categoría correspondiente. - Preguntas con respuestas que DEBEN SER LEÍDAS a los entrevistados/as: Se identifican por presentar las categorías de respuesta escritas en letra minúscula. - Preguntas con respuestas que NO DEBEN SER LEÍDAS a los entrevistados/as. Se identifican por presentar las categorías de respuesta escritas en letra mayúscula. - Preguntas abiertas: Son las que no presentan ninguna categoría preestablecida. Adicionalmente, en el cuestionario se presenta la siguiente información: - Flechas y Saltos: Son instrucciones gráficas (FLECHAS) o en texto (RECUADROS) que guían la entrevista a través de las diferentes preguntas y secciones de la boleta. - Cortes: Son grupos de preguntas o secciones completas que serán formuladas exclusivamente a ciertos grupos poblacionales distinguidos por edad, sexo u otra característica. Finalmente, el tipo de cuestionario son los hogares y su diseño es dirigido. Cleaning operations --------------------------- Las etapas secuenciales del procesamiento de los datos son: (i) TRANSCRIPCIÓN (ii) CODIFICACIÓN (iii) VALIDACIÓN TRANSCRIPCIÓN DE DATOS: La información luego de ser validada en sus dos fases: 1) Revisión Regional por los Supervisores y Validadores en cada región y, 2) Validación Nacional por los Validadores en la oficina central, se procedió a la digitación de datos del cuestionario de la encuesta a un sistema de captura de datos diseñado en el software CSPro (Census and Survey Processing System), sistema de procesamiento para censos y encuestas. Este sistema permite el diseño de formularios, controles de rango y de flujo, al final d ela transcripción genera un listado de errores de inconsistencia por cuestio de encuesta, mismo que es entregado para su revisión al equipo de Validación Nacional. Para el control de digitación correcta de datos de la encuesta, se procedió a la doble trascripción de información transcrita proporcionando un nivel importante de confianza, dado que ambas digitaciones fueron comparadas hasta que no existieran diferencias. Una vez identificada la jerarquía de los cuestionarios de la encuesta, se procede a construir los diccionarios de datos en la herramienta CSPro identificando cada sección y sus respectivas variables dentro del cuestionario. Como resultado del procesamiento de la información se cuenta con una Base de Datos de la Encuesta de Hogares 2009 que comprende un conjunto de archivos en ambiente SPSS los cuales se relacionan entre sí por la «llave de relación» denominado «FOLIO». CODIFICACIÓN: Una vez concluido el proceso de la transcripción se prepara la Base de Datos con las variables a codificar procedentes de las preguntas abiertas de las Secciones de Migración y de Empleo. El sistema para la codificación asistida fue programado en el lenguaje de programación Visual Basic 6. El administrador de base de datos utilizado es SQL Server 2005, el nombre de la base de datod es BDEH2009 que se encuentra en el servidor SVRCENTRALBD. El objetivo principal de la codificación asistida es la asignación de códigos a las descripciones literales del cuestionario con la utilización de Clasificadores, reduciendo tiempos y movimientos. La codificación asistida se caracteriza porque el operador de sistema verifica la descripación que ofrece el sistema y asigan su código respectivo. Posteriormente, se procedió a la revisión o supervisión de la asignación de códigos, dicho proceso fue ejecutado en archivos Excel y el trabajo fue desarrollado en bloques por códigos o descripciones cuyo objetivo fue uniformar los criterios, permitiendo la homogeneización de códigos de las diferentes variables. La codificación fue aplicada para las siguientes variables abiertas de la boleta de la EH-2009: • Actividad y Ocupación principal. • Actividad y Ocupación secundaria. • Producción agrícola. • Productos derivados y subproductos agropecuarios. El sistema de Codificación utilizó las siguientes tablas externas de Actividad y Ocupación: • COB Clasificación de Ocupaciones de Bolivia (COB-98). • CAEB Clasificación de Actividades Económicas de Bolivia (CAEB-2005). • CPAEB Clasificación de Productos por Actividad Económica (CPAEB-2005). VALIDACIÓN DE LA BASE DE DATOS: Finalmente se procedió a la revisión de la Base de Datos transcrita y codificada mediante la generación de las frecuencias y el cruce de variables que permite identificar inconsistencias que son depuradas. De esta manera, se logró la validación de la Base de Datos Final según los temas de investigación. Response rate --------------------------- La no-respuesta ocurre cuando las viviendas u otras unidades de observación que se han seleccionado para la inclusión en una encuesta no reportan todos o algunos de los datos. Hay dos tipos de no-respuesta: i) ítem de no-respuesta y ii) la unidad de no-respuesta completa. El ítem de no-respuesta ocurre cuando una unidad encuestada tiene inexactitudes o se niega a proporcionar algunos ítems (preguntas) específicos de información. La unidad de no-respuesta completa se refiere a la pérdida al recolectar cualquier dato en la encuesta de una unidad muestral. Por ejemplo, no pueden obtenerse los datos de una vivienda elegible en la encuesta debido a la ausencia del informante, los caminos intransitables, la negativa para participar en la entrevista, o no disponibilidad del informante por otras razones. Este tipo de no - respuesta en la Encuesta de Hogares se llama Tipo A de no-entrevista. Históricamente, entre 4 y 5 por ciento de las unidades elegibles en un año dado de Tipo A de no-entrevistadas pero actualmente, ésta proporción de tipo A es considerada entre 6 y 7 por ciento. De acuerdo a las incidencias de campo se ha tendio como resultado del operativo de campo el 95% de respuesta (entrevistas completas) y el 5% de falta de respuesta. Sampling error estimates --------------------------- EVALUACIÓN DE LA CALIDAD DE LOS DATOS: Los errores que afectan a toda encuesta pueden agruparse en dos grandes grupos: 1) Errores de muestreo que se originan por la obtención de resultados sobre las características de una población, a partir de la información recogida en una muestra de la misma. 2) Errores ajenos al muestreo que son comunes a toda investigación estadística, tanto si la información es recogida por muestreo como si se realiza un censo. Estos errores se presentan en cualquier fase del proceso estadístico: - Antes de la recolección de datos: por deficiencias del marco muestral e insuficiencias en las definiciones y/ conceptos y cuestionarios. - Durante la recolección de datos: por defectos en la labor de los entrevistadores y/o supervisores del trabajo de campo e incorrecta declaración por parte de los informantes. - Después de la recogida de los datos: errores en la depuración, crítica-codificación, grabación, tabulación e impresión de los resultados. CÁLCULO DE ERRORES MUESTRALES: Una de las medidas más importantes de precisión en las encuestas por muestreo es el error muestra. Es un indicador de variabilidad introducido al seleccionar una muestra en lugar de enumerar en toda la población bajo el supuesto que la información recolectada en la encuesta satisface con la propiedad de insesgada. Para cualquier encuesta dada, un error muestral de un estimador puede ser evaluado y utilizado para indicar la exactitud de los estimadores. Para diseños muestrales de encuestas de hogares que a menudo involucran estratificación, conglomeración y la probabilidad de selección desigual, las formas de estos estimadores son a menudo complejos y muy difíciles de evaluar. El cálculo de errores muestrales para los datos de encuestas de hogares requiere procedimientos que tengan en cuenta la complejidad del diseño muestral de los datos generados y el empleo apropiado de un software computacional. Para el cálculo de errores muestrales existen habitualmente ocho paquetes estadísticos: CENVAR, Epi Info, PC CARP, SAS, STATA, SUDAAN, SPSS y WesVarPC. La mayoría de estos paquetes utilizan las aproximaciones de serie de Taylor para determinar las estimaciones de los errores muestrales. En el marco muestral de la EH 2009, para el cálculo de errores muestrales el programa que se utilizó el módulo Muestras Complejas del Statistical Package for Social Science (SPSS) versión 13, el cual produce una tabla de salida o reporte con los indicadores: a) El valor estimado del parámetro (Valor estimado de la variable o indicador estadístico). b) Error estándar (Error muestral expresado en unidades de la variable que se está analizando). c) Coeficiente de variación (Error muestral expresado en términos relativos y mide los niveles de precisión de las estimaciones de los parámetros). d) Intervalo de confianza con un nivel de confianza del 95% (Intervalos con un nivel de confianza establecido (95%), incluyen el valor poblacional). e) El efecto del diseño (Deff) (Mide la eficiencia del diseño muestral multietápico, con respecto a un diseño muestral aleatorio simple). f) Número de observaciones. ESTIMACIÓN DE LA VARIANZA: Algunas encuestas por muestreo utilizan un mecanismo sistemático para la selección de las unidades primarias de muestreo (UPM), lo cual complica la estimación de la varianza. En efecto, no existe un estimador insesgado de la varianza bajo muestreo sistemático y no se puede medir la variabilidad muestral de los estimadores puntuales presentados en la sección anterior -ya que en efecto se realiza una sola selección aleatoria por estrato y se necesitan como mínimo dos selecciones aleatorias para estimar la varianza. En este caso, se dice que la varianza no es medible y no se puede calcular únicamente a partir de los datos de la muestra. Existen dos enfoques para tratar el problema: (1) utilizar modelos para la estimación de la varianza y (2) utilizar múltiples selecciones aleatorias. La decisión sobre que enfoque utilizar dependerá de los supuestos que asuma el usuario y de la capacidad computacional disponible. EL MÉTODO DE SERIE DE TAYLOR (LINEARIZACIÓN): La expansión de serie de Taylor ha sido utilizada en una variedad de situaciones en matemática y estadística. La puesta en práctica de la expansión de serie fue obtener una aproximación del valor de las funciones que se deben calcular, por ejemplo, la e^x exponencial o la función de logarítmica [log(x)]. La expansión de serie de Taylor para e^x supone tomar las derivadas de primer orden y de orden más alto de e^x con respecto a x; evaluando las derivadas para algún valor, generalmente cero; y construir una series de términos sobre la base de las derivadas.

摘要 --------------------------- 目的 - 总体目标 《2009年家庭调查》(EH 2009)是国家统计局(INE)的一项工具,旨在通过收集有关玻利维亚人口社会经济和人口统计学变量的信息,为制定、评估、跟踪政策以及设计社会行动计划提供关于家庭生活状况的信息。 具体目标 《2009年家庭调查》具有以下具体目标: 1. 生成指标,以了解贫困、福祉和家庭生活条件的演变。 2. 衡量社会项目在改善人口生活条件方面的范围。 3. 为公共和私营机构提供信息,以便进行与所研究变量相关的后续研究。 方法论 EH 2009全面概述了玻利维亚人口的生活状况。分析单位为玻利维亚的家庭,样本单位包括人口普查区、人口普查段、住宅和与人口普查区或其组合相符的初级抽样单位(UPM)。这是一项横断面调查,共选取了4,260套住宅。 信息收集所采用的方法是面对面访谈,由经过适当培训的人员进行,他们在信息收集期间访问了选取的住宅,使用多主题问卷,以研究家庭福祉。 主题范围 a) 社会人口特征。 b) 移民。 c) 健康。 d) 教育。 e) 活动条件和职业特征。 f) 家庭收入。 g) 家庭支出。 h) 住宅特征。 用户和用途 生产者用户:INE的社会统计数据和指标部门。 用途:提供有关玻利维亚人口生活质量的情报,并有助于改进在家庭调查的规划和执行中使用的作业方法。 内部用户:INE的国家账户、登记、统计和指标经济部门。 用途:构建指标、宏观经济变量和创建社会经济统计信息系统。 外部用户:政府部门、经济分析和政策单位(UDAPE)、国际组织(美洲开发银行、世界银行、拉丁美洲和加勒比经济委员会)、研究人员、非政府组织、新闻媒体和公众。 用途:衡量就业、失业和次失业指标,计算贫困指标(贫困发生率、贫困差距和贫困严重程度),计算获得教育和学年的指标,计算人口指标。制定和跟踪经济发展和社会政策。 地理覆盖范围 --------------------------- 《2009年家庭调查》的地理覆盖范围为国家层面。信息收集在全国九个部门进行,包括城市和农村地区,基于预先确定的样本设计。 分析单位 --------------------------- 《2009年家庭调查》的分析单位是家庭和个人。 总体 --------------------------- 调查涵盖所有居住在私人住宅的家庭成员。 数据类型 --------------------------- 抽样调查(ssd)/调查数据 抽样程序 --------------------------- 背景 该调查通过在全国范围内进行代表性抽样执行,在城乡地区进行区分,此外还使用基于NBI(未满足需求指数)构建的层,以提高调查的准确性。 样本设计涵盖统计抽样理论的各个方面,使用复杂抽样,包括群组分层和多项阶段抽样原则,包括比例抽样和系统抽样。在本调查中使用的样本框架被称为“主框架”,它是基于2001年人口和住宅普查信息构建的,这是一个包含整个国家领土的面积框架,分为由UPM(初级抽样单位)、人口普查区、人口普查段和其他辅助变量组成的单元,为执行复杂抽样提供了理想的场景。在统计学中,这是一个“广义框架”,因为它包含允许进行复杂抽样计划的变量。 样本设计 研究覆盖范围: 该研究针对2009年居住在玻利维亚城市首府、其他城市和农村地区的所有家庭,不包括集体住宅。因此,空间范围是整个国家,时间范围是2009年。 样本框架: 用于工作的样本框架是2001年人口和住宅普查(CNPV-2001)提供的,称为“主框架”,因为它被认为是广义框架;也就是说,它具有允许分层和群组化的变量,它包含复合抽样单元,包括UPM(初级抽样单位)、人口普查区、人口普查段和其他辅助变量,允许在所有维度上应用复杂抽样,因为它由每个复合单元内的住宅组成。此外,这个框架的一个重要特征是它构成一个“面积框架”,这意味着整个玻利维亚都在同一个框架中代表。 分层: 由于拥有复合样本框架,可以采用复杂抽样。这种样本设计包含四个阶段,并且涉及第一阶段的一个分层,以下将予以描述。分层始终应该回答将研究人口分为表现明显差异的独立组的事实,以在信息单位对主题兴趣变量中的变量的响应方面保证数据的精确性。 在此理解下,2009年家庭调查的分层考虑了由两个变量组成的组的联合,该变量识别UPM的城市或农村地区,第二个变量称为统计层(NBI),它是基于NBI水平构建的,这些水平是:基本需求满足(NBS)、贫困线、中度贫困、贫困和边缘化。 针对贫困地图的NBI水平的主题分类被分为四个子层,称为统计层,通过聚类k均值统计方法进行,根据调查的设定目标和以下近似标准进行: 1. 高层;是需要基本需求得到满足的单位样本。 2. 中高层;是需要基本需求处于贫困线的单位样本。 3. 中低层;是需要基本需求处于中度贫困分类的单位样本。 4. 低层;是需要基本需求处于贫困和边缘化之间的单位样本。 在第一阶段,UPM的面积城市/农村和NBI统计层结构包含8个独立层,与“主框架”中的16790个UPM相关联。 抽样单元: 第一阶段单元:样本框架包含16790个复合抽样单元,称为UPM,涵盖整个国家领土。这些单元由一个或多个人口普查区的组合构成,因此将用作初级抽样单位。 第二阶段单元:由于样本框架的结构,直接低于UPM的单元是人口普查区;选择人口普查区作为次级抽样单位(USM)的原因在于,虽然一个UPM是由一个或多个人口普查区组成的组合,但存在32.9%的UPM具有多个关联的人口普查区,这在许多情况下会导致现场处理困难,因为人口普查区在UPM内不连续。 第三阶段单元:这个单元称为UTM(三级抽样单位)和指的是“人口普查段”在“主框架”中。它是人口普查区直接下级的单元,每个人口普查区中的段数在5到7之间,这个阶段仅在分散的农村地区应用,因为它的效用更大,由于距离和现场操作的事实。 第四阶段单元:在这个阶段进入段内的住宅(分散的农村地区)和人口普查区内的住宅(城市、其他农村地区),因此最终抽样单位(UUM)是住宅,在此明确指出,将排除集体住宅。 样本量: 确定样本量首先必须与估计水平或研究域以及定义的层的相对重要性相兼容,其次必须与主要估计对象的主要变量相兼容。在此理解下,确定样本量的问题在于确定最佳样本量,考虑到国际劳工组织(ILO)关于样本量主题的手册和基于1992年和2001年人口普查信息的贫困地图的建议。为了估计多名义比例,在这种情况下是贫困条件或层(1.基本需求满足;2.贫困线;3.中度贫困;4.贫困;5.边缘化),这是构建贫困变量的置信区间的等效,该变量符合由5个类别组成的分布,不同的作者(Quesenberry和Hurts,1964;Goodman,1965;Tortora,1978;Medina,1998)分析了确定多名义比例所需样本量的程序,该程序涉及将大小为n的样本分为k(5)个互斥且穷尽的类别。 根据常规计算,建议在9869.65和9870人之间进行选择,这种情况相当于从Tortora提出的程序中建议的选取数目的58%。 在首次近似中,试图确定一个样本量,以获得与估计的低误差量相兼容的总住宅数。样本量通过假设简单随机抽样(SRS)的住宅来设定,该样本量通过一个考虑了“设计效应(Deff)”的因子的调整,在群组(人口普查区)而不是住宅中进行抽样。在确定样本量时需要考虑的另一个方面是调查的覆盖范围,目的是确定在2003-2004年家庭调查中未进行连续调查的住宅,我们有: n=(n0*Deff)/(1-TNR)=4260 其中: TNR:最大非响应率,7.25%。 Deff:是设计方差与使用相同样本量的简单随机抽样所产生的方差之间的方差比。它是1.421。 样本分配: 国家层面的样本量是4260套住宅,使用了分层抽样,考虑了8个层,然后将这些4260套住宅分配到8个层中。出于严格的操作因素,每个UPM将访谈的住宅数量为12套,因此共有355个UPM将被分配到层中。 在调查的要求中,收集更多农村地区的信息是一个愿望。尽管在国家样本框架中,农村地区仅占28%,但在样本中,预计将有大约40%分配给农村地区,其余60%分配给城市地区。所使用的分配技术被称为“能力分配”(根据8个层进行了分配)。 选择概率: 在前三个阶段,抽样选择使用按比例大小抽样(PPT),在最后一个阶段使用简单系统抽样和随机起始。 抽样偏差 --------------------------- 实际上进行调查的单位与选定的样本之间的对应关系是相同的,没有记录调查样本设计的偏差。 数据收集方式 --------------------------- 面对面 [f2f] 研究工具 --------------------------- 问卷设计: 问卷设计包括一个多主题问卷,组织在8个部分中,因此问卷覆盖以下主题: 第一部分。 家庭及其成员的一般特征。本部分的问题反映了家庭成员的特征,这将有助于确定人口的性别、年龄和婚姻状况或民事状况的结构。 部分A. 社会人口特征(适用于所有家庭成员)。 第二部分。 移民。本部分的问题旨在调查在过去5年(即2004年至2009年)的人口流动,以及调查产生这些流动的原因。 部分A. 移民。 第三部分。 健康。这些问题旨在调查5岁以下人群的健康状况;同时,评估这些人群获得卫生服务的覆盖范围、结构和费用。 部分A. 急性腹泻病(EDA)和急性呼吸道感染(IRA)。 部分B. 疫苗。 部分C. 生育率。 部分D. 卫生服务获得。 第四部分。 教育。本部分旨在调查人口的受教育特征,特别是与识字和文盲、最高教育水平、课程、入学、出勤和缺勤、缺勤原因、辍学和教育系统覆盖范围有关的内容。 部分A. 教育培训。 部分B. 重读和缺勤原因。 部分C. 个人对信息通信技术(ICT)的使用。 第五部分。 就业。本部分的目标是对人口进行分类,根据其活动状况,考虑三个基本类别:就业人口、失业人口和经济不活跃人口。 部分A. 活动状况。 部分B. 主要职业和活动。 部分C. 薪资工人的收入。 部分D. 自雇工人的收入。 部分E. 次要职业和活动。 部分F. 次要职业活动的劳动收入。 部分G. 劳动力利用不足。 第六部分。 家庭非劳动收入。这些收入是家庭可以定期(每月或每年)获得的收入,其来源不是经济活动。 部分A. 非劳动收入。 部分B. 转移收入。 部分C. 汇款。 第七部分。 支出。本部分旨在衡量和研究家庭在购买最终消费商品和服务方面的支出特征。本部分所包含的产品详细信息考虑了重要性高和消费频率高的产品。 部分A. 在家外消费的食品和饮料支出。 部分B. 教育支出。 部分C. 家内食品支出。 部分D. 非食品支出。 部分E. 家庭设备。 第八部分。 住宅。本部分的目标是衡量对基本服务的获得、住宅条件和与基本需求不满足相关的贫困。所收集的信息将允许衡量住房短缺问题的规模,并指导机构行动在制定响应国家需求的社会政策方面的设计。此外,问题允许了解对信息通信技术(ICT)的拥有、处置和/或访问。 部分A. 住宅特征。 部分B. 家庭对ICT的访问。 功能类型 问卷是半结构化的,因为它包含预先编码的问题和开放式问题。具体而言,问卷中问题的特征如下: - 封闭式问题:是具有预先确定答案的问题,在其中只需记录分配给相应类别的代码。 - 需要朗读给受访者的问题:通过在字母小写中呈现答案类别来识别。 - 不需要朗读给受访者的问题。通过在字母大写中呈现答案类别来识别。 - 开放式问题:是没有预先确定类别的问题。 此外,问卷还呈现以下信息: - 触发器和跳跃:是图形指令(箭头)或文本(方框),它们指导访谈通过问卷的不同问题和部分。 - 切割:是仅针对根据年龄、性别或其他特征区分的特定人口群体提出的问题或部分。 最后,问卷的类型是针对家庭的,其设计是定向的。 数据清洗操作 --------------------------- 数据处理顺序的连续阶段如下: (i) 转写 (ii) 编码 (iii) 验证 数据转写: 在经过两个阶段的验证后:1)每个地区的监督员和验证员进行的区域审查,2)中央办公室的验证员进行的全国验证,然后对调查问卷的数据进行了数字化,将其输入到在CSPro(人口和调查处理系统)软件中设计的捕获数据系统。该系统允许设计表格、范围控制和流程控制,在转写结束时生成一个列表,列出因调查问题而出现的不一致性错误,并将其提交给验证团队进行审查。 为了控制调查数据的正确转写,进行了信息转写的双重转录,提供了重要程度的信心,因为两种转录都被比较,直到不存在差异为止。 一旦确定了问卷的层次结构,就在CSPro工具中构建数据字典,识别问卷中的每个部分及其相应的变量。作为信息处理的结果,我们拥有《2009年家庭调查》数据库,它包含一组在SPSS环境中相互关联的文件,它们通过所谓的“关系键”称为“FOLIO”相互关联。 编码: 一旦完成转写过程,就准备数据库,其中包含来自移民和就业部分开放式问题的变量,以进行编码。 使用Visual Basic 6编程语言编写的编码辅助系统。所使用的数据库管理系统是SQL Server 2005,数据库的名称是BDEH2009,位于SVRCENTRALBD服务器上。 编码辅助的主要目标是使用分类器将代码分配给问卷的描述性文字,以减少时间和移动。编码辅助的特点是系统操作员检查系统提供的描述,并分配相应的代码。 随后,对代码分配进行了审查或监督,该过程在Excel文件中执行,该工作以代码或描述的块进行开发,其目标是统一标准,允许不同变量的代码同质化。 编码应用于以下开放式问卷的变量: • 活动和主要职业。 • 活动和次要职业。 • 农业生产。 • 农业产品和副产品的加工。 编码使用以下活动和经济分类的外部表: • COB玻利维亚职业分类(COB-98)。 • CAEB玻利维亚活动经济分类(CAEB-2005)。 • CPAEB玻利维亚按活动经济分类的产品分类(CPAEB-2005)。 数据库验证: 最后,通过对转写和编码的数据库进行审查,通过生成频率和变量交叉,可以识别不一致性,从而对其进行清理。这样,就根据研究主题验证了最终数据库。 响应率 --------------------------- 非响应发生时,被选定的住宅或其他观察单位没有报告全部或部分数据。有两种类型的非响应:i)项目非响应和ii)完整单位非响应。项目非响应发生在调查单位具有不准确或拒绝提供某些特定信息项(问题)的情况。完整单位非响应是指收集调查单位样本中任何数据的损失。例如,由于信息提供者缺席、道路不通、拒绝参与访谈或信息提供者因其他原因不可用,无法获得选定的合格住宅的数据。这种类型的非响应在家庭调查中称为A类非访谈。从历史上看,在一年中,有4%至5%的A类非访谈合格单位,但目前,这种类型的A类非访谈的比例被认为是6%至7%。 根据现场发生的频率,结果表明,现场操作达到了95%的响应率(完整访谈)和5%的缺失响应。 抽样误差估计 --------------------------- 数据质量评估: 影响整个调查的误差可以分为两大类: 1)抽样误差,它源于从样本中收集信息以了解人口特征的结果。 2)非抽样误差,它是所有统计调查的共同点,无论是通过抽样收集信息还是通过普查进行。 这些误差在统计过程的任何阶段都会出现: - 在数据收集之前:由于样本框架的缺陷、定义和/或概念的不足以及调查问卷的不足。 - 在数据收集期间:由于访谈员和/或现场监督员的工作缺陷以及信息提供者的错误声明。 - 在数据收集之后:在清理、批判性编码、记录、制表和打印结果时出现错误。 抽样误差的计算: 抽样误差是抽样调查中最重要的精确性指标之一。它是通过选择样本而不是对整个人口进行计数而引入的变异性的指标。对于任何给定的调查,一个估计量的抽样误差可以评估并用于指示估计量的精确性。对于通常涉及分层、群组化和选择概率不等价的住宅调查样本设计,这些估计量的形式通常是复杂且难以评估的。住宅调查数据的抽样误差计算需要考虑样本设计复杂性的程序,并使用适当的计算软件。 对于计算抽样误差,通常有八个统计软件包:CENVAR、Epi Info、PC CARP、SAS、STATA、SUDAAN、SPSS和WesVarPC。大多数这些软件包使用泰勒级数近似来确定抽样误差的估计。 EH 2009样本框架中,用于计算抽样误差的程序是SPSS版本13的复杂样本模块,它生成一个输出表或报告,包含以下指标: a)参数的估计值(变量的估计值或统计指标)。 b)标准误差(表示为变量的单位的抽样误差)。 c)变异系数(表示为相对的抽样误差,衡量参数估计的精确性水平)。 d)置信区间(置信水平为95%的区间,包括总体值)。 e)设计效应(Deff)(衡量多阶段样本设计相对于简单随机抽样的效率)。 f)观测数量。 方差估计: 一些抽样调查使用一种系统性地选择初级抽样单位(UPM)的机制,这使方差
提供机构:
catalog.ihsn.org
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作