bias-amplified-splits/wanli
收藏Hugging Face2023-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bias-amplified-splits/wanli
下载链接
链接失效反馈官方服务:
资源简介:
Bias-amplified Splits for WANLI数据集是一个用于评估模型鲁棒性的新颖框架,通过放大训练数据中的偏差并挑战模型在反偏差测试集上的泛化能力。该数据集基于WANLI,包含108K个英语句子对,用于自然语言推理任务。数据集分为偏差放大训练集和反偏差测试集,通过两种方法(少数例子和部分输入基线)进行划分。实验表明,反偏差例子对模型具有天然的挑战性,且在偏差放大数据上训练的模型在反偏差例子上的表现显著下降。
Bias-amplified Splits for WANLI数据集是一个用于评估模型鲁棒性的新颖框架,通过放大训练数据中的偏差并挑战模型在反偏差测试集上的泛化能力。该数据集基于WANLI,包含108K个英语句子对,用于自然语言推理任务。数据集分为偏差放大训练集和反偏差测试集,通过两种方法(少数例子和部分输入基线)进行划分。实验表明,反偏差例子对模型具有天然的挑战性,且在偏差放大数据上训练的模型在反偏差例子上的表现显著下降。
提供机构:
bias-amplified-splits
原始信息汇总
数据集概述
数据集名称
- 名称: Bias-amplified Splits for WANLI
- 别名: WANLI
数据集描述
- 目的: 评估模型鲁棒性,通过放大训练数据集中的偏差,并挑战模型超越这些偏差。
- 应用: 应用于自然语言推理(NLI)任务,特别是针对WANLI数据集。
数据集特征
- 特征列表:
id: 整数类型,唯一标识符。premise: 字符串类型,文本片段。hypothesis: 字符串类型,可能为真、假或真值未知的文本。gold: 字符串类型,标签为entailment,neutral,contradiction之一。genre: 字符串类型,标签为generated或generated_revised。pairID: 字符串类型,与原始MNLI数据集中的示例对应的ID。
数据集结构
- 数据分割:
- Minority Examples配置:
train.biased: 89402个实例train.anti_biased: 13483个实例test.biased: 4363个实例test.anti_biased: 637个实例
- Partial-input Baselines配置:
train.biased: 89402个实例train.anti_biased: 13483个实例test.biased: 4344个实例test.anti_biased: 656个实例
- Minority Examples配置:
数据集使用
- 加载示例: python from datasets import load_dataset dataset = load_dataset("bias-amplified-splits/wanli", "minority_examples") train_dataset = dataset[train.biased] eval_dataset = dataset[test.anti_biased]
评估结果
- DeBERTa-large模型:
- Minority Examples配置:
- 原始训练分割 vs 原始测试: 77.1%
- 偏差训练分割 vs 反偏差测试: 31.8%
- Partial-input Baselines配置:
- 原始训练分割 vs 原始测试: 77.1%
- 偏差训练分割 vs 反偏差测试: 49.6%
- Minority Examples配置:
许可证
- 许可证: CC-BY-4.0
搜集汇总
背景与挑战
背景概述
该数据集是一个用于评估自然语言推理模型鲁棒性的框架,基于WANLI构建,包含108K个英语句子对。它通过放大训练数据中的偏差并设计反偏差测试集来挑战模型泛化能力,实验显示模型在反偏差例子上的表现显著下降,突出了偏差对模型性能的影响。
以上内容由遇见数据集搜集并总结生成



