bias-amplified-splits/mnli
收藏Hugging Face2023-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bias-amplified-splits/mnli
下载链接
链接失效反馈官方服务:
资源简介:
Bias-amplified Splits for MultiNLI数据集是一个用于评估模型鲁棒性的新颖框架,通过放大训练数据中的偏差并挑战模型在反偏差测试集上的泛化能力。该数据集基于MultiNLI数据集,包含了433k个句子对,标注了文本蕴含信息。数据集通过两种方法(少数示例和部分输入基线)来识别偏差和反偏差示例,并将原始数据集划分为偏差和反偏差子集。该框架可以应用于任何现有数据集,以测试模型的鲁棒性。
Bias-amplified Splits for MultiNLI数据集是一个用于评估模型鲁棒性的新颖框架,通过放大训练数据中的偏差并挑战模型在反偏差测试集上的泛化能力。该数据集基于MultiNLI数据集,包含了433k个句子对,标注了文本蕴含信息。数据集通过两种方法(少数示例和部分输入基线)来识别偏差和反偏差示例,并将原始数据集划分为偏差和反偏差子集。该框架可以应用于任何现有数据集,以测试模型的鲁棒性。
提供机构:
bias-amplified-splits
原始信息汇总
数据集概述
数据集基本信息
- 许可证: CC-BY-4.0
- 任务类别: 文本分类
- 语言: 英语
- 大小类别: 100K<n<1M
数据集结构
-
特征:
premise: 字符串类型hypothesis: 字符串类型label: 类别标签,包括entailment,neutral,contradictionidx: 整数类型,唯一标识符
-
数据分割:
-
Minority Examples:
train.biased: 309873 实例train.anti_biased: 82829 实例validation_matched.biased: 7771 实例validation_matched.anti_biased: 2044 实例validation_mismatched.biased: 7797 实例validation_mismatched.anti_biased: 2035 实例
-
Partial-input Baselines:
train.biased: 309873 实例train.anti_biased: 82829 实例validation_matched.biased: 7745 实例validation_matched.anti_biased: 2070 实例validation_mismatched.biased: 7758 实例validation_mismatched.anti_biased: 2074 实例
-
数据集创建
- 目的: 通过放大训练数据中的偏差,挑战模型超越这些偏差,以评估模型的鲁棒性。
- 方法: 使用模型基于方法自动从现有数据集中提取偏差放大训练集和难以处理的反偏差测试集。
使用考虑
- 社会影响: 推动开发不依赖表面偏差和相关性的鲁棒NLP模型。
- 偏差讨论: 使用偏差放大分割来补充基准,提供更具挑战性的评估设置,测试模型鲁棒性。



