CMIE Consumer Pyramids dataset

github2025-02-25 更新2025-02-19 收录

下载链接：

https://github.com/SiyiSun99/CMIE_Imputation

下载链接

链接失效反馈

官方服务：

资源简介：

CMIE消费者金字塔数据集是一个结构化的纵向调查，覆盖印度约240,000个家庭，跨越多个波次。它包括多样的社会人口变量，如收入、消费和家庭人口统计。

The CMIE Consumer Pyramids Dataset is a structured longitudinal survey covering approximately 240,000 households across India and spanning multiple survey waves. It includes a diverse set of sociodemographic variables such as income, consumption, and household demographics.

创建时间：

2025-02-18

原始信息汇总

CMIE 数据填充项目

项目概述

本项目旨在探究CMIE（印度经济监测中心）消费者金字塔数据集中缺失数据的影响，并应用统计方法、机器学习和深度学习填充技术来恢复缺失值，以提高预测模型的性能。

数据集详情

数据集名称：CMIE Consumer Pyramids dataset
数据覆盖范围：约240,000个印度家庭，跨越多轮调查
数据类型：包含多种社会人口统计变量，如收入、消费和家庭人口统计

目标

模拟缺失值（MCAR、MAR、MNAR）在空间和时间维度上的影响
应用不同的填充技术（统计、机器学习、深度学习）
评估填充质量，使用RMSE（连续变量）和准确度（分类变量）
分析缺失数据对政策决策的经济影响

方法

基准方法：均值/众数
统计方法：MICE
基于机器学习的方法：MissForest、k-NN
深度学习方法：GAIN（基于GAN）、MIDAS/VAE（自动编码器）、DSAN（基于注意力）

评估指标

填充性能：连续变量的RMSE和分类变量的准确度
下游任务影响：对预测模型（如贫困分类、健康趋势）的影响
经济成本映射：评估填充误差对政策决策的影响

未来工作

整合贝叶斯方法以量化不确定性
将分析扩展到其他大规模调查数据集
调查填充误差对政策模拟的因果影响

许可和使用限制

本项目是专有的，未经作者明确许可，不得复制、修改或使用。

贡献政策

此仓库不接受公开贡献。

如果有反馈或建议，请打开一个issue而不是提交pull request。
直接合作需邀请。
如果有兴趣从事相关研究，请直接联系作者。

搜集汇总

数据集介绍

构建方式

CMIE Consumer Pyramids dataset 是一项针对印度约240,000户家庭进行的长纵向调查数据集，其构建基于多轮次的数据收集，涵盖了收入、消费和户主人口统计等多样化的社会人口学变量。数据集通过模拟缺失值（包括完全随机缺失MCAR、随机缺失MAR和不可忽略缺失MNAR）在空间和时间维度上的分布，采用了多种统计、机器学习和深度学习的方法进行缺失值插补，以优化预测模型的表现。

特点

该数据集的特点在于其规模宏大、覆盖面广，能够反映印度家庭在多个时间点的经济和社会状况。数据集包含了丰富的变量，允许研究者从多个角度分析消费者的经济行为。此外，该数据集通过综合评估插补质量，如连续变量的均方根误差（RMSE）和分类变量的准确率，以及分析缺失数据对政策决策的经济影响，具有很高的研究价值。

使用方法

用户在使用CMIE Consumer Pyramids dataset时，可以根据项目概述中所提供的框架，选择不同的插补技术，包括基线方法（均值/众数）、统计方法（多变量插补MICE）、基于机器学习的方法（MissForest、k-NN）以及基于深度学习的方法（如GAIN、MIDAS/VAE、DSAN）。使用前需遵守版权和使用限制，未经明确许可不得复制、修改或使用该数据集。若需重用或合作，需直接联系作者获取许可。

背景与挑战

背景概述

CMIE Consumer Pyramids数据集，由印度经济监测中心（Centre for Monitoring Indian Economy, CMIE）发起并维护，是一份覆盖印度约24万户家庭的多波次纵向调查数据集。该数据集包含丰富的社会人口学变量，如收入、消费和户主人口统计信息等，是研究印度社会经济状况的重要资源。该数据集的创建旨在为政策制定者提供决策支持，其研究成果对印度经济政策分析和社会发展具有显著影响力。

当前挑战

该数据集面临的核心挑战在于大规模调查中数据的缺失问题。数据缺失可能导致分析结果的不准确，影响政策决策的有效性。具体挑战包括：模拟不同类型的数据缺失（完全随机缺失、随机缺失、非随机缺失）在空间和时间维度上的分布，应用多种统计和机器学习方法进行数据插补，并评估插补方法的质量，以及分析缺失数据对政策决策的经济影响。此外，如何将贝叶斯方法融入不确定性量化，并将分析扩展到其他大规模调查数据集，以及探究插补错误对政策模拟的因果影响，是该数据集未来的研究挑战。

常用场景

经典使用场景

在当前的项目实践中，CMIE Consumer Pyramids dataset被广泛用于探索大规模调查中缺失数据的影响。其经典的使用场景在于，研究者通过对该数据集进行模拟缺失（MCAR, MAR, MNAR）的处理，再应用多种统计与机器学习方法进行数据插补，从而评估不同插补技术的质量与效果。

解决学术问题

该数据集解决了在经济学、社会学以及政策制定等领域中，由于数据缺失导致的分析偏差和决策困难问题。通过精确的数据插补，研究者能够更准确地估计收入、消费等关键经济指标，进而为政策制定提供更为可靠的数据支撑。

衍生相关工作

基于CMIE Consumer Pyramids dataset的研究衍生了众多相关工作，如利用深度学习进行数据插补的方法研究，以及探究不同插补方法对下游任务影响的分析。此外，也有研究致力于整合贝叶斯方法以量化插补不确定性，并将分析方法扩展到其他大规模调查数据集上。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集