corypaik/coda

Name: corypaik/coda
Creator: corypaik
Published: 2022-10-20 16:57:23
License: 暂无描述

Hugging Face2022-10-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/corypaik/coda

下载链接

链接失效反馈

官方服务：

资源简介：

CoDa（颜色数据集）是一个用于评估语言模型对视觉属性表示能力的探测数据集。它包含521个常见对象的颜色分布，这些对象分为Single、Multi和Any三组。默认配置使用10个CLIP风格的模板（例如“一张[object]的照片”）和10个cloze风格的模板（例如“每个人都知道大多数[object]是[color]。”）。数据集中的文本为英文。

CoDa (Color Dataset) is a probing dataset for evaluating language models' capacity to represent visual attributes. It contains color distributions for 521 common objects, which are categorized into three groups: Single, Multi, and Any. The default configuration uses 10 CLIP-style templates (e.g., "A photo of a [object]") and 10 cloze-style templates (e.g., "Everyone knows that most [object] are [color]."). All text within the dataset is in English.

提供机构：

corypaik

原始信息汇总

数据集概述

数据集名称

名称: CoDa
别名: The Color Dataset

数据集基本信息

语言: 英语 (en-US)
许可证: Apache-2.0
多语言性: 单语
大小: 10K<n<100K
源数据: 原始数据
任务类别: 文本评分
任务ID: 文本评分-其他-分布预测

数据集内容

摘要: CoDa是一个用于评估语言模型中视觉属性表示的探测数据集。它包含521个常见对象的颜色分布，分为单色、多色和任意色三个组。
支持任务: 数据集包含过滤和模板化的例子，主要以填空式问题呈现。

数据集结构

数据实例: 每个实例包含文本、标签、模板组、模板索引、类别ID、显示名称、对象组和n-gram。
数据字段:
- text: 模板化示例，根据template_group的值分为CLIP风格和填空风格。
- label: 11种颜色的概率值列表。
- template_group: 模板类型，0为CLIP风格，1为填空风格。
- template_idx: 模板索引。
- class_id: 对应的OpenImages v6类别ID。
- display_name: 对应的OpenImages v6显示名称。
- object_group: 对象组，对应单色、多色和任意色。
- ngram: 用于查找的n-gram。

数据分割

对象分割: 数据集根据对象组（单色、多色、任意色）分为训练、验证和测试集。
示例分割: 数据集根据对象组提供相应的训练、验证和测试示例数量。

数据集创建

许可证信息: 数据集根据Apache 2.0许可证发布。
引用信息: 引用该数据集的参考文献为《The World of an Octopus: How Reporting Bias Influences a Language Models Perception of Color》。

贡献者

贡献者: 感谢@github-username添加此数据集。

搜集汇总

数据集介绍

构建方式

在视觉属性表征研究领域，CoDa数据集通过系统化流程构建而成。其核心数据来源于OpenImages v6图像数据库，从中筛选出521种常见物体作为研究对象。数据构建过程融合了专家生成与群体标注的双重机制，首先由专家定义物体类别与色彩分类体系，随后通过众包方式收集物体与色彩的关联分布。数据集进一步运用模板化处理，设计了10种CLIP风格模板与10种完形填空风格模板，将原始标注转化为结构化文本实例，最终形成包含万余条数据样本的标准化测评集合。

使用方法

该数据集主要应用于语言模型视觉属性表征能力的系统性评估。研究者可通过加载标准化数据实例，提取文本字段与色彩概率分布标签，构建色彩预测任务。对于CLIP风格模板，可评估视觉-语言联合表征能力；对于完形填空模板，则专注于语言模型对色彩词汇的分布预测。使用时可依据物体分组进行分层分析，比较模型在不同色彩认知范畴的表现差异。数据集已提供与GPT-2、RoBERTa等主流模型的兼容接口，支持概率分布拟合度计算与偏差分析，为探究语言模型中的报告偏见现象提供量化基准。

背景与挑战

背景概述

在自然语言处理领域，语言模型对视觉属性的内在表征能力一直是研究热点。2021年，科罗拉多大学博尔德分校的研究团队，包括Cory Paik等人，推出了CoDa数据集，旨在系统性地探究语言模型对物体颜色分布的认知偏差。该数据集基于OpenImages v6中的521个常见物体，通过众包方式构建了颜色概率分布，并设计了CLIP风格与完形填空风格的模板，用以评估模型在视觉属性表征上的表现。CoDa的诞生为理解语言模型中的报告偏差提供了重要工具，推动了多模态表征学习的发展。

当前挑战

CoDa数据集旨在解决语言模型在视觉属性（如颜色）分布预测中的挑战，核心问题在于模型如何准确捕捉现实世界中物体的颜色多样性，并克服训练数据中的报告偏差。在构建过程中，挑战主要源于数据标注的复杂性：需要众包标注者对不同物体的颜色分布进行概率性评估，确保标注的一致性与客观性；同时，数据集需平衡物体类别的覆盖范围，避免因样本偏差影响模型评估的泛化能力。这些挑战对数据集的可靠性与应用价值提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，CoDa数据集被广泛应用于探究语言模型对视觉属性的内在表征能力。该数据集通过构建包含521种常见对象的颜色分布，并采用CLIP风格与完形填空风格的模板，为研究者提供了一个标准化的评测基准。其经典使用场景在于评估预训练语言模型如何基于文本信息推断物体的典型颜色，从而揭示模型对世界知识的编码机制。

解决学术问题

CoDa数据集主要解决了语言模型中存在的报告偏差问题，即模型从文本语料中学习到的知识可能偏离真实世界的客观分布。通过量化模型对物体颜色预测与人类标注分布之间的差异，该数据集帮助研究者识别并分析语言模型在视觉属性表征上的局限性。这一工作深化了我们对模型认知偏差的理解，为提升模型的世界知识对齐提供了实证基础。

实际应用

在实际应用中，CoDa数据集可服务于多模态人工智能系统的开发与优化。例如，在图像描述生成或视觉问答任务中，利用该数据集校准语言模型对颜色的感知，能够提升系统输出的准确性与自然度。此外，它还可用于教育技术领域，辅助设计更符合人类认知的交互式学习工具，增强AI对常识性视觉知识的理解与运用。

数据集最近研究