CMIE Consumer Pyramids dataset
收藏github2025-02-25 更新2025-02-19 收录
下载链接:
https://github.com/SiyiSun99/CMIE_Imputation
下载链接
链接失效反馈官方服务:
资源简介:
CMIE消费者金字塔数据集是一个结构化的纵向调查,覆盖印度约240,000个家庭,跨越多个波次。它包括多样的社会人口变量,如收入、消费和家庭人口统计。
The CMIE Consumer Pyramids Dataset is a structured longitudinal survey covering approximately 240,000 households across India and spanning multiple survey waves. It includes a diverse set of sociodemographic variables such as income, consumption, and household demographics.
创建时间:
2025-02-18
原始信息汇总
CMIE 数据填充项目
项目概述
本项目旨在探究CMIE(印度经济监测中心)消费者金字塔数据集中缺失数据的影响,并应用统计方法、机器学习和深度学习填充技术来恢复缺失值,以提高预测模型的性能。
数据集详情
- 数据集名称:CMIE Consumer Pyramids dataset
- 数据覆盖范围:约240,000个印度家庭,跨越多轮调查
- 数据类型:包含多种社会人口统计变量,如收入、消费和家庭人口统计
目标
- 模拟缺失值(MCAR、MAR、MNAR)在空间和时间维度上的影响
- 应用不同的填充技术(统计、机器学习、深度学习)
- 评估填充质量,使用RMSE(连续变量)和准确度(分类变量)
- 分析缺失数据对政策决策的经济影响
方法
- 基准方法:均值/众数
- 统计方法:MICE
- 基于机器学习的方法:MissForest、k-NN
- 深度学习方法:GAIN(基于GAN)、MIDAS/VAE(自动编码器)、DSAN(基于注意力)
评估指标
- 填充性能:连续变量的RMSE和分类变量的准确度
- 下游任务影响:对预测模型(如贫困分类、健康趋势)的影响
- 经济成本映射:评估填充误差对政策决策的影响
未来工作
- 整合贝叶斯方法以量化不确定性
- 将分析扩展到其他大规模调查数据集
- 调查填充误差对政策模拟的因果影响
许可和使用限制
本项目是专有的,未经作者明确许可,不得复制、修改或使用。
贡献政策
此仓库不接受公开贡献。
- 如果有反馈或建议,请打开一个issue而不是提交pull request。
- 直接合作需邀请。
- 如果有兴趣从事相关研究,请直接联系作者。
搜集汇总
数据集介绍

构建方式
CMIE Consumer Pyramids dataset 是一项针对印度约240,000户家庭进行的长纵向调查数据集,其构建基于多轮次的数据收集,涵盖了收入、消费和户主人口统计等多样化的社会人口学变量。数据集通过模拟缺失值(包括完全随机缺失MCAR、随机缺失MAR和不可忽略缺失MNAR)在空间和时间维度上的分布,采用了多种统计、机器学习和深度学习的方法进行缺失值插补,以优化预测模型的表现。
特点
该数据集的特点在于其规模宏大、覆盖面广,能够反映印度家庭在多个时间点的经济和社会状况。数据集包含了丰富的变量,允许研究者从多个角度分析消费者的经济行为。此外,该数据集通过综合评估插补质量,如连续变量的均方根误差(RMSE)和分类变量的准确率,以及分析缺失数据对政策决策的经济影响,具有很高的研究价值。
使用方法
用户在使用CMIE Consumer Pyramids dataset时,可以根据项目概述中所提供的框架,选择不同的插补技术,包括基线方法(均值/众数)、统计方法(多变量插补MICE)、基于机器学习的方法(MissForest、k-NN)以及基于深度学习的方法(如GAIN、MIDAS/VAE、DSAN)。使用前需遵守版权和使用限制,未经明确许可不得复制、修改或使用该数据集。若需重用或合作,需直接联系作者获取许可。
背景与挑战
背景概述
CMIE Consumer Pyramids数据集,由印度经济监测中心(Centre for Monitoring Indian Economy, CMIE)发起并维护,是一份覆盖印度约24万户家庭的多波次纵向调查数据集。该数据集包含丰富的社会人口学变量,如收入、消费和户主人口统计信息等,是研究印度社会经济状况的重要资源。该数据集的创建旨在为政策制定者提供决策支持,其研究成果对印度经济政策分析和社会发展具有显著影响力。
当前挑战
该数据集面临的核心挑战在于大规模调查中数据的缺失问题。数据缺失可能导致分析结果的不准确,影响政策决策的有效性。具体挑战包括:模拟不同类型的数据缺失(完全随机缺失、随机缺失、非随机缺失)在空间和时间维度上的分布,应用多种统计和机器学习方法进行数据插补,并评估插补方法的质量,以及分析缺失数据对政策决策的经济影响。此外,如何将贝叶斯方法融入不确定性量化,并将分析扩展到其他大规模调查数据集,以及探究插补错误对政策模拟的因果影响,是该数据集未来的研究挑战。
常用场景
经典使用场景
在当前的项目实践中,CMIE Consumer Pyramids dataset被广泛用于探索大规模调查中缺失数据的影响。其经典的使用场景在于,研究者通过对该数据集进行模拟缺失(MCAR, MAR, MNAR)的处理,再应用多种统计与机器学习方法进行数据插补,从而评估不同插补技术的质量与效果。
解决学术问题
该数据集解决了在经济学、社会学以及政策制定等领域中,由于数据缺失导致的分析偏差和决策困难问题。通过精确的数据插补,研究者能够更准确地估计收入、消费等关键经济指标,进而为政策制定提供更为可靠的数据支撑。
衍生相关工作
基于CMIE Consumer Pyramids dataset的研究衍生了众多相关工作,如利用深度学习进行数据插补的方法研究,以及探究不同插补方法对下游任务影响的分析。此外,也有研究致力于整合贝叶斯方法以量化插补不确定性,并将分析方法扩展到其他大规模调查数据集上。
以上内容由遇见数据集搜集并总结生成



