ColorSwap
收藏ColorSwap: A Color and Word Order Dataset for Multimodal Evaluation
数据集概述
ColorSwap 是一个用于评估和提升多模态模型在匹配物体与其颜色方面能力的专用数据集。该数据集包含 2,000 个独特的图像-标题对,分为 1,000 个示例。每个示例包括一对标题-图像,以及一对“颜色交换”的标题-图像。关键在于,示例中的两个标题包含相同的词汇,但颜色词汇被重新排列以修改不同的物体。数据集通过自动化标题和图像生成与人工参与相结合的方式创建。
数据结构
数据集包括以下文件:
data/{train, test}.json:包含标题和图像信息。data/images.zip:包含图像文件。
数据集示例如下: python [ { "id": 0, "caption_1": "someone holding a yellow umbrella wearing a white dress", "caption_2": "someone holding a white umbrella wearing a yellow dress", "image_1": "images/img_0_1.png", "image_2": "images/img_0_2.png", "image_source": "midjourney", "caption_source": "human" }, ... ]
使用方法
数据集可以通过以下方式下载和使用:
- 从 Google Drive 下载并解压到
data文件夹。 - 使用 Hugging Face API 直接下载: python from datasets import load_dataset dataset = load_dataset("stanfordnlp/colorswap", use_auth_token=True)
评估
数据集支持以下评估:
- 图像-文本匹配模型:参考 Colab 演示。
- 视觉语言模型:结果包含在
vlm_results文件夹中,可通过运行python vlm_eval.py提取分数。
引用
如果使用该数据集,请引用以下论文:
@article{burapacheep2024colorswap, author = {Jirayu Burapacheep and Ishan Gaur and Agam Bhatia and Tristan Thrush}, title = {ColorSwap: A Color and Word Order Dataset for Multimodal Evaluation}, journal = {arXiv}, year = {2024}, }




