five

pkavumba/balanced-copa

收藏
Hugging Face2022-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pkavumba/balanced-copa
下载链接
链接失效反馈
官方服务:
资源简介:
Balanced COPA数据集是一个用于训练机器学习模型以进行常识因果推理的基准数据集。该数据集扩展了COPA数据集(Roemmele et al. 2011),通过添加镜像实例来平衡原始COPA答案中的词汇分布,从而减少模型对表面线索的依赖。Balanced COPA通过添加具有相同答案选择但不同标签的镜像实例,使词汇分布更加均衡。数据集包含1000个验证实例和500个测试实例,每个实例包含前提、两个选择、问题类型、标签和是否镜像的信息。

The Balanced COPA dataset is a benchmark dataset for training machine learning models to perform commonsense causal reasoning. This dataset extends the original COPA dataset (Roemmele et al. 2011) by adding mirrored instances to balance the lexical distribution in the answer options of the original COPA, thereby reducing the model's reliance on surface-level cues. The Balanced COPA achieves a more balanced lexical distribution by adding mirrored instances that share the same answer choices but have different labels. The dataset contains 1000 validation instances and 500 test instances, each of which includes a premise, two options, a question type, a label, and information indicating whether it is a mirrored instance.
提供机构:
pkavumba
原始信息汇总

数据集卡片:Balanced COPA

数据集描述

数据集摘要

Bala-COPA:一个用于训练鲁棒常识因果推理模型的英语数据集。

Balanced Choice of Plausible Alternatives数据集是一个用于训练机器学习模型的基准,这些模型对表面线索/虚假相关性具有鲁棒性。该数据集扩展了COPA数据集(Roemmele et al. 2011),通过添加镜像实例来缓解原始COPA答案中的令牌级表面线索。原始COPA数据集中的表面线索是由于正确和错误答案选择之间的令牌分布不平衡,即某些令牌在正确选择中比错误选择中出现得更频繁。Balanced COPA通过添加具有相同答案选择但不同标签的镜像实例来均衡令牌分布。

支持的任务和排行榜

更多信息需要

语言

  • 英语

数据集结构

数据实例

一个validation示例如下: json { "id": 1, "premise": "My body cast a shadow over the grass.", "choice1": "The sun was rising.", "choice2": "The grass was cut.", "question": "cause", "label": 1, "mirrored": false, }

数据字段

所有拆分的数据字段相同:

  • premise:一个string特征。
  • choice1:一个string特征。
  • choice2:一个string特征。
  • question:一个string特征。
  • label:一个int32特征。
  • id:一个int32特征。
  • mirrored:一个bool特征。

数据拆分

validation test
1,000 500

数据集创建

策划理由

更多信息需要

源数据

初始数据收集和规范化

更多信息需要

源语言生产者是谁?

更多信息需要

注释

注释过程

更多信息需要

注释者是谁?

更多信息需要

个人和敏感信息

更多信息需要

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

Creative Commons Attribution 4.0 International (CC BY 4.0)

引用信息

bibtex @inproceedings{kavumba-etal-2019-choosing, title = "When Choosing Plausible Alternatives, Clever Hans can be Clever", author = "Kavumba, Pride and Inoue, Naoya and Heinzerling, Benjamin and Singh, Keshav and Reisert, Paul and Inui, Kentaro", booktitle = "Proceedings of the First Workshop on Commonsense Inference in Natural Language Processing", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D19-6004", doi = "10.18653/v1/D19-6004", pages = "33--42", abstract = "Pretrained language models, such as BERT and RoBERTa, have shown large improvements in the commonsense reasoning benchmark COPA. However, recent work found that many improvements in benchmarks of natural language understanding are not due to models learning the task, but due to their increasing ability to exploit superficial cues, such as tokens that occur more often in the correct answer than the wrong one. Are BERT{}s and RoBERTa{}s good performance on COPA also caused by this? We find superficial cues in COPA, as well as evidence that BERT exploits these cues.To remedy this problem, we introduce Balanced COPA, an extension of COPA that does not suffer from easy-to-exploit single token cues. We analyze BERT{}s and RoBERTa{}s performance on original and Balanced COPA, finding that BERT relies on superficial cues when they are present, but still achieves comparable performance once they are made ineffective, suggesting that BERT learns the task to a certain degree when forced to. In contrast, RoBERTa does not appear to rely on superficial cues.", }

@inproceedings{roemmele2011choice, title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning}, author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S}, booktitle={2011 AAAI Spring Symposium Series}, year={2011}, url={https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF}, }

贡献

感谢@pkavumba添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在常识推理研究领域,数据集的构建质量直接影响模型评估的可靠性。Balanced COPA(BCOPA)数据集以经典的COPA数据集为基础,通过专家生成的方式进行了系统性扩展。其核心构建方法在于识别并矫正原始数据中存在的词汇层面浅层线索,即正确答案与错误答案之间不均衡的词汇分布。为此,研究者为每个原始实例创建了一个镜像实例,该镜像实例保持选项文本不变,但交换了正确标签,从而在整体上均衡了各词汇在正负选项中的出现频率,有效消除了模型可能依赖的虚假统计关联。
特点
作为常识因果推理的评测基准,Balanced COPA数据集展现出鲜明的结构性特征。该数据集专注于英语语境下的因果与效应关系判断,其最显著的特点是引入了“镜像”实例机制。每个数据实例均包含前提、两个备选答案、问题类型(原因或结果)及标签,并额外标注了是否为镜像实例。这种设计使得数据集在规模扩大的同时,内部词汇分布达到平衡,从而迫使模型必须深入理解语义与因果逻辑,而非依赖词汇出现的表面统计模式来做出选择,提升了评测的严谨性与挑战性。
使用方法
在自然语言处理模型研发中,Balanced COPA主要用于训练和评估模型对常识因果关系的鲁棒性理解能力。使用者可通过Hugging Face平台加载该数据集,其数据划分为验证集与测试集。典型的使用流程是,将前提、问题与两个选项输入模型,要求模型预测正确选项(标签0或1)。研究者可利用原始实例与镜像实例进行对比实验,以诊断并剥离模型性能中源于浅层线索的部分。该数据集尤其适用于检验模型是否真正掌握了常识推理能力,是开发抗干扰、高鲁棒性推理模型的重要工具。
背景与挑战
背景概述
在自然语言处理领域,常识推理作为衡量机器智能的关键维度,长期受到学术界的广泛关注。平衡因果选择数据集(Balanced COPA)于2019年由Pride Kavumba等研究人员提出,作为对经典COPA数据集的扩展与优化。该数据集的核心研究目标在于构建一个能够训练模型抵抗表面线索干扰的基准测试,旨在推动机器在因果推理任务中实现更深层次的语义理解,而非依赖词汇分布的统计偏差。其创建不仅响应了预训练语言模型在常识推理中可能存在的‘聪明汉斯’效应,也为评估模型的真实推理能力提供了更为严谨的框架,对提升自然语言理解系统的鲁棒性具有显著影响力。
当前挑战
平衡因果选择数据集致力于解决常识因果推理中的核心挑战,即模型易受表面词汇线索误导而非真正理解因果关系。原始COPA数据集中正确答案与错误选项间的词汇分布不平衡,导致模型可能通过简单的词频统计而非逻辑推理进行预测,这构成了该领域的关键难题。在数据集构建过程中,研究者面临的主要挑战在于如何有效识别并中和这些表面线索,通过设计镜像实例来平衡词汇分布,同时确保新数据不引入语义矛盾或破坏原有的因果逻辑结构,这一过程要求精密的语言学分析和严谨的实验验证。
常用场景
经典使用场景
在自然语言处理领域,因果推理是衡量机器理解常识的关键维度。Balanced COPA数据集作为COPA基准的扩展,其经典使用场景聚焦于训练和评估模型在平衡化语境下的因果推理能力。通过引入镜像实例,该数据集消除了原始数据中因词汇分布不均而产生的表面线索,迫使模型必须深入理解前提与选项间的逻辑关联,而非依赖统计偏差。这一设计使得Balanced COPA成为检验模型是否真正掌握常识因果关系的试金石,广泛应用于BERT、RoBERTa等预训练语言模型的鲁棒性测试中。
解决学术问题
该数据集核心解决了自然语言理解研究中模型过度依赖表面线索的学术难题。原始COPA数据集中,正确答案常包含特定高频词汇,导致模型可能通过词汇共现而非逻辑推理做出选择,这种现象被称为“聪明汉斯效应”。Balanced COPA通过均衡化词汇分布,有效抑制了这种伪相关性,促使研究转向模型内在推理机制的探索。其意义在于推动了因果推理评估从表象匹配到本质理解的范式转变,为构建更可靠、可解释的常识推理模型奠定了数据基础。
衍生相关工作
围绕Balanced COPA数据集,学术界衍生了一系列探讨模型鲁棒性与推理能力的研究工作。原论文《When Choosing Plausible Alternatives, Clever Hans can be Clever》系统揭示了BERT等模型在原始COPA上的表面线索利用问题,并提出了平衡化构建方法。后续研究在此基础上,进一步探索了不同预训练架构对平衡化数据的适应性,以及如何通过对抗训练、数据增强等手段提升模型泛化性能。这些工作共同深化了对语言模型推理机制的理解,推动了如CODA、e-CARE等更多关注公平性与鲁棒性的常识推理数据集的诞生。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作