MICS datasets

github2023-10-19 更新2024-05-31 收录

下载链接：

https://github.com/mrc-ide/mics-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于维护来自联合国儿童基金会多指标类群调查（MICS）数据集的仓库。数据集包括多个国家和地区的调查数据，用于分析儿童和妇女的健康、教育和社会状况。

This is a repository dedicated to maintaining datasets from the Multiple Indicator Cluster Surveys (MICS) conducted by UNICEF. The datasets encompass survey data from various countries and regions, aimed at analyzing the health, education, and social conditions of children and women.

创建时间：

2020-04-04

原始信息汇总

MICS数据集概述

数据集来源

数据集来自Multiple Indicator Cluster Surveys (MICS)。

数据集结构

src目录：包含用于下载数据集的R脚本。
archive目录：包含运行任务后的版本化结果。

主要任务

download_mics_datasets
- 生成文件：mics_survey_catalogue_filenames.csv，包含所有MICS调查的列表、URL和文件名。
- 生成文件夹：mics_datasets_raw，包含从https://mics.unicef.org/surveys下载的调查数据集的原始ZIP文件。
mics_rds
- 生成文件：mics_survey_catalogue.csv，包含所有调查列表及分配的位置代码和调查ID。
- 生成文件夹：mics_datasets_rds，包含每个调查数据集的RDS文件。每个RDS文件包含一个列表，其中包含原始ZIP中的每个数据集。SPSS数据集通过haven:read_sav()导入并保存为haven_labelled变量。如果原始数据集包含.txt Readme文件，则通过readLines()保存。

数据集处理

数据集的下载和解析工作流程由OJ Watson开发。
将数据集保存为RDS文件的任务与下载任务分开，以便在不需要重新下载所有原始文件的情况下修复或调整解析的RDS文件。

数据集更新

创建或更新存档需要使用orderly包。
下载路径需要根据CSV和MICS网站的HTML进行生成，涉及一些手动步骤。
更新存档时，需要手动运行R脚本并更新orderly.yml文件，然后使用orderly命令更新存档。

以上概述了MICS数据集的主要内容和结构，以及数据集的下载、处理和更新流程。

搜集汇总

数据集介绍

构建方式

MICS数据集通过自动化脚本与手动步骤相结合的方式构建。首先，使用R脚本从联合国儿童基金会（UNICEF）的MICS网站下载原始调查数据，并将其保存为ZIP文件。随后，通过`orderly`工具包对这些数据进行版本控制，并将原始数据转换为RDS格式，以便于在R环境中进行高效处理。数据集的构建过程中，手动步骤包括从MICS网站导出调查目录的CSV文件，并保存每个调查页面的HTML文件，以确保数据的完整性和可追溯性。

特点

MICS数据集涵盖了全球多个国家和地区的多指标类集调查数据，具有广泛的地理覆盖面和丰富的指标内容。数据集以CSV和RDS格式提供，便于用户在不同分析工具中使用。RDS文件保留了原始数据的标签信息，并通过`haven`包导入SPSS数据，确保数据的完整性和可解释性。此外，数据集还包含了每个调查的元数据文件，如README文件，进一步增强了数据的透明度和可用性。

使用方法

使用MICS数据集时，用户首先需要安装`orderly`包，并按照README文件中的步骤手动更新调查目录和HTML文件。随后，通过运行`orderly::orderly_run`命令下载并处理数据。数据集以ZIP文件形式存储，用户可以根据需要解压并使用RDS文件进行分析。`orderly`工具包还支持数据去重功能，通过硬链接减少存储空间的占用，确保数据集的高效管理。用户可以通过R脚本直接加载RDS文件，利用R的强大分析功能进行数据挖掘和可视化。

背景与挑战

背景概述

MICS数据集是由联合国儿童基金会（UNICEF）主导的多指标类集调查（Multiple Indicator Cluster Surveys, MICS）项目的重要组成部分，旨在收集全球范围内的儿童和妇女健康、教育、福利等多维度数据。该数据集自1990年代初期开始构建，经过多年的发展，已成为全球公共卫生和社会科学研究的重要数据来源。MICS数据集的核心研究问题聚焦于通过标准化调查方法，获取可比较的国际数据，以支持政策制定和干预措施的评估。其影响力不仅体现在学术研究中，还广泛应用于国际组织、政府和非政府组织的决策支持系统中。

当前挑战

MICS数据集在构建和应用过程中面临多重挑战。首先，数据收集的标准化与一致性是一个关键问题，由于调查覆盖多个国家和地区，不同地区的文化、语言和技术条件差异可能导致数据质量的波动。其次，数据处理的复杂性较高，尤其是早期调查中使用的非标准文件格式（如MS Word文档）增加了数据解析和整合的难度。此外，数据集的更新和维护依赖于手动操作，如HTML页面的保存和CSV文件的生成，自动化程度较低，增加了时间和人力成本。这些挑战不仅影响了数据集的构建效率，也对数据的及时性和可用性提出了更高的要求。

常用场景

经典使用场景

MICS数据集广泛应用于全球健康与发展研究领域，特别是在评估儿童、妇女和家庭的健康与福祉状况时。研究人员通过分析这些数据，能够深入了解不同国家和地区在健康、教育、营养等方面的现状与变化趋势。该数据集的使用场景包括但不限于政策制定、项目评估以及学术研究，为全球公共卫生领域的决策提供了坚实的数据支持。

衍生相关工作

基于MICS数据集，许多经典研究工作得以开展。例如，研究人员利用这些数据分析了全球儿童营养不良的分布与趋势，揭示了社会经济因素对健康结果的影响。此外，该数据集还催生了一系列关于性别平等与妇女健康的研究，特别是在发展中国家。这些研究不仅丰富了学术文献，还为全球健康政策的制定提供了重要参考。

数据集最近研究