five

DoubleML/multimodal_confounding

收藏
Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/DoubleML/multimodal_confounding
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个半合成的多模态混杂数据集,用于评估因果效应估计方法。数据集基于三个常用数据集(Diamonds、IMDB和CIFAR-10)生成,包含文本、图像和表格特征。数据集的目标是生成可信的混杂效应,使得处理效应的估计值通常小于0.5。数据集包含50,000个样本,分为训练集,并提供了多个特征字段,如结果变量Y、处理变量D_1、文本评论、情感标签、图像、价格、钻石特征等。数据集还包含一些用于基准测试的Oracle值,如cond_exp_y、l1、m1和g1。数据集的生成过程基于部分线性模型,详细描述可参考相关论文。

该数据集是一个半合成的多模态混杂数据集,用于评估因果效应估计方法。数据集基于三个常用数据集(Diamonds、IMDB和CIFAR-10)生成,包含文本、图像和表格特征。数据集的目标是生成可信的混杂效应,使得处理效应的估计值通常小于0.5。数据集包含50,000个样本,分为训练集,并提供了多个特征字段,如结果变量Y、处理变量D_1、文本评论、情感标签、图像、价格、钻石特征等。数据集还包含一些用于基准测试的Oracle值,如cond_exp_y、l1、m1和g1。数据集的生成过程基于部分线性模型,详细描述可参考相关论文。
提供机构:
DoubleML
原始信息汇总

数据集概述

数据集信息

  • 许可证: BSD-3-Clause
  • 特征:
    • 数值型特征: cond_exp_y, m1, g1, l1, Y, D_1, carat, depth, table, price, x, y, z (均为float64类型)
    • 文本特征: review (字符串类型), sentiment (字符串类型)
    • 图像特征: image (图像类型), label (整数类型)
    • 布尔特征: 包括cut_*, color_*, clarity_*系列特征 (均为布尔类型)
    • Oracle特征: cond_exp_y, l1, m1, g1 (均为float64类型)
  • 数据分割:
    • 训练集: 50000个样本, 大小为185209908.0字节
  • 数据集大小: 185209908.0字节
  • 下载大小: 174280492字节
  • 标签: Causal Inference
  • 大小类别: 10K<n<100K

数据集描述与使用

  • 数据生成模型: 遵循部分线性模型,其中治疗效果常数为0.5。
  • 目标变量: sentiment, label, price 用于生成负向混杂因素,影响YD_1
  • 数据集用途: 作为观测数据下多模态混杂因素的因果推断方法比较的基准。

数据集来源

  • 基础数据集:
    • Diamonds dataset
    • IMDB dataset
    • CIFAR-10 dataset
  • 数据预处理: 所有数据集均采样至相同大小(50,000个样本),并进行必要的清洗和转换。

数据集结构

  • 数据字段:
    • 结果与处理: Y, D_1
    • 文本特征: review, sentiment
    • 图像特征: image, label
    • 表格特征: price, carat, x, y, z, depth, table 及切割、颜色、清晰度相关特征
    • Oracle特征: cond_exp_y, l1, m1, g1

限制

  • 混杂因素: 由于混杂因素是通过原始标签生成的,完全移除混杂因素可能不可行。

引用信息

  • 数据集引用: 使用时需引用相关文章。
  • 原始数据集引用: 包括Diamonds, IMDB, CIFAR-10数据集的引用信息。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个半合成基准数据集,专门用于评估多模态混杂下的因果效应估计方法。它结合了文本(IMDB评论)、图像(CIFAR-10)和表格(钻石属性)三种模态的数据,通过模拟负向混杂来测试因果推断模型的性能。数据集包含50,000个样本,提供了真实值特征用于基准对比,适用于研究多模态数据在因果分析中的挑战。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作