Intel/COCO-Counterfactuals
收藏数据集卡片 for COCO-Counterfactuals
数据集概述
COCO-Counterfactuals 是一个高质量的合成数据集,用于多模态视觉-语言模型评估和训练数据增强。每个 COCO-Counterfactuals 示例包含一对图像-文本对;一个是另一个的反事实变体。两个标题除了名词主体外完全相同。两个相应的合成图像仅在两个标题中改变的主体方面有所不同。在我们的配套论文中,我们展示了 COCO-Counterfactuals 数据集对现有的预训练多模态模型具有挑战性,并显著增加了零样本图像-文本检索和图像-文本匹配任务的难度。我们的实验还表明,使用 COCO-Counterfactuals 增强训练数据可以提高多个下游任务的 OOD 泛化能力。
- 许可证: CC-BY-4.0
数据集来源
- 仓库: https://huggingface.co/datasets/Intel/COCO-Counterfactuals
- 论文: https://openreview.net/forum?id=7AjdHnjIHX
数据
标题位于 data/examples.jsonl,图像位于 data/images.zip。您可以按以下方式加载数据:
python
from datasets import load_dataset
examples = load_dataset(Intel/COCO-Counterfactuals, use_auth_token=<YOUR USER ACCESS TOKEN>)
您可以通过以下步骤获取 <YOUR USER ACCESS TOKEN>:
- 登录您的 Hugging Face 账户
- 点击您的个人资料图片
- 点击 "Settings"
- 点击 "Access Tokens"
- 生成一个访问令牌
数据集结构
[更多信息需要]
偏差、风险和限制
尽管最近文本到图像生成能力有了显著改进,但诸如 Stable Diffusion 等模型存在众所周知的限制,在使用从这些模型派生的数据集时应予以考虑。我们不预见我们的工作中存在重大的安全威胁或人权侵犯风险。然而,我们图像生成过程的自动化性质可能会引入 COCO-Counterfactuals 数据集包含某些人可能认为不适当或冒犯性图像的可能性。
引用
https://openreview.net/forum?id=7AjdHnjIHX
Tiep Le 和 Phillip Howard 贡献相等。
BibTeX:
@inproceedings{le2023cococounterfactuals, author = {Tiep Le and Vasudev Lal and Phillip Howard}, title = {{COCO}-Counterfactuals: Automatically Constructed Counterfactual Examples for Image-Text Pairs}, booktitle = {Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year = 2023, url={https://openreview.net/forum?id=7AjdHnjIHX}, }
数据集卡片作者
Tiep Le、Vasudev Lal 和 Phillip Howard
数据集卡片联系
tiep.le@intel.com; vasudev.lal@intel.com; phillip.r.howard@intel.com




