five

bias-amplified-splits/mnli

收藏
Hugging Face2023-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bias-amplified-splits/mnli
下载链接
链接失效反馈
官方服务:
资源简介:
Bias-amplified Splits for MultiNLI数据集是一个用于评估模型鲁棒性的新颖框架,通过放大训练数据中的偏差并挑战模型在反偏差测试集上的泛化能力。该数据集基于MultiNLI数据集,包含了433k个句子对,标注了文本蕴含信息。数据集通过两种方法(少数示例和部分输入基线)来识别偏差和反偏差示例,并将原始数据集划分为偏差和反偏差子集。该框架可以应用于任何现有数据集,以测试模型的鲁棒性。

Bias-amplified Splits for MultiNLI数据集是一个用于评估模型鲁棒性的新颖框架,通过放大训练数据中的偏差并挑战模型在反偏差测试集上的泛化能力。该数据集基于MultiNLI数据集,包含了433k个句子对,标注了文本蕴含信息。数据集通过两种方法(少数示例和部分输入基线)来识别偏差和反偏差示例,并将原始数据集划分为偏差和反偏差子集。该框架可以应用于任何现有数据集,以测试模型的鲁棒性。
提供机构:
bias-amplified-splits
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: CC-BY-4.0
  • 任务类别: 文本分类
  • 语言: 英语
  • 大小类别: 100K<n<1M

数据集结构

  • 特征:

    • premise: 字符串类型
    • hypothesis: 字符串类型
    • label: 类别标签,包括 entailment, neutral, contradiction
    • idx: 整数类型,唯一标识符
  • 数据分割:

    • Minority Examples:

      • train.biased: 309873 实例
      • train.anti_biased: 82829 实例
      • validation_matched.biased: 7771 实例
      • validation_matched.anti_biased: 2044 实例
      • validation_mismatched.biased: 7797 实例
      • validation_mismatched.anti_biased: 2035 实例
    • Partial-input Baselines:

      • train.biased: 309873 实例
      • train.anti_biased: 82829 实例
      • validation_matched.biased: 7745 实例
      • validation_matched.anti_biased: 2070 实例
      • validation_mismatched.biased: 7758 实例
      • validation_mismatched.anti_biased: 2074 实例

数据集创建

  • 目的: 通过放大训练数据中的偏差,挑战模型超越这些偏差,以评估模型的鲁棒性。
  • 方法: 使用模型基于方法自动从现有数据集中提取偏差放大训练集和难以处理的反偏差测试集。

使用考虑

  • 社会影响: 推动开发不依赖表面偏差和相关性的鲁棒NLP模型。
  • 偏差讨论: 使用偏差放大分割来补充基准,提供更具挑战性的评估设置,测试模型鲁棒性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作