five

jhu-cogsci/hans

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/jhu-cogsci/hans
下载链接
链接失效反馈
官方服务:
资源简介:
HANS数据集是一个用于自然语言推理(NLI)的评估集,旨在测试NLI模型可能学习的无效启发式方法。数据集包含前提(premise)、假设(hypothesis)、标签(label)等字段,标签包括‘entailment’(蕴含)和‘non-entailment’(非蕴含)。数据集还包含解析前提、解析假设、二元解析前提、二元解析假设、启发式方法、子案例和模板等字段。数据集分为训练集和验证集,各包含30000个样本。

The HANS dataset is an evaluation set for natural language inference (NLI), designed to test invalid heuristics that NLI models may learn. It contains fields such as premise, hypothesis, and label, where the valid labels include "entailment" and "non-entailment". Additionally, it also includes parsed premise, parsed hypothesis, binary parsed premise, binary parsed hypothesis, heuristics, sub-case, and template. The dataset is split into training and validation sets, each containing 30,000 samples.
提供机构:
jhu-cogsci
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Heuristic Analysis for NLI Systems
  • 语言: 英语
  • 多语言性: 单语种
  • 数据集大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 自然语言推理
  • 许可证: 未知

数据结构

数据字段

  • premise: 字符串类型
  • hypothesis: 字符串类型
  • label: 分类标签,可能值包括 entailment (0), non-entailment (1)
  • parse_premise: 字符串类型
  • parse_hypothesis: 字符串类型
  • binary_parse_premise: 字符串类型
  • binary_parse_hypothesis: 字符串类型
  • heuristic: 字符串类型
  • subcase: 字符串类型
  • template: 字符串类型

数据分割

  • 训练集: 30000条数据
  • 验证集: 30000条数据

数据集创建

数据集摘要

HANS数据集是一个NLI评估集,用于测试NLI模型可能学习的无效启发式假设。

引用信息

@article{DBLP:journals/corr/abs-1902-01007, author = {R. Thomas McCoy and Ellie Pavlick and Tal Linzen}, title = {Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference}, journal = {CoRR}, volume = {abs/1902.01007}, year = {2019}, url = {http://arxiv.org/abs/1902.01007}, archivePrefix = {arXiv}, eprint = {1902.01007}, timestamp = {Tue, 21 May 2019 18:03:36 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1902-01007.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言推理领域,HANS数据集的构建旨在系统性地检验模型对特定句法启发式的依赖。该数据集通过专家生成的方式,精心设计了涵盖多种句法模式的句子对,包括前提与假设,并标注了蕴含与非蕴含标签。构建过程中,每个样本均附带了详细的句法解析信息,如标准解析与二叉解析,以及启发式类别、子案例和模板标识,确保了数据在句法结构上的多样性与可控性。
使用方法
使用HANS数据集时,研究者可将其作为自然语言推理任务的评估基准,以检测模型在句法启发式上的鲁棒性。通过加载数据集,用户能够访问前提、假设、标签及句法解析等字段,进而训练或测试模型。数据集支持直接用于分类任务,同时其丰富的元数据便于进行细粒度分析,如按启发式类别划分评估,从而深入理解模型的推理缺陷。
背景与挑战
背景概述
在自然语言推理领域,模型常依赖表面启发式策略而非深层语义理解,导致泛化能力受限。为系统诊断此类问题,约翰斯·霍普金斯大学认知科学系的R. Thomas McCoy、Ellie Pavlick与Tal Linzen于2019年共同创建了HANS数据集。该数据集聚焦于揭示模型在推理任务中误用句法启发式的现象,通过精心设计的对抗性示例,检验模型是否仅基于词汇重叠或子序列匹配等浅层特征作出判断。其构建推动了NLI模型鲁棒性评估范式的演进,为理解神经网络决策机制提供了关键工具,对提升语言模型的逻辑一致性具有深远影响。
当前挑战
HANS数据集旨在应对自然语言推理中模型过度依赖表面启发式的核心挑战,例如词汇重叠或子序列匹配导致的误判,这要求模型具备深层次句法与语义分析能力。在构建过程中,挑战集中于设计能够精确隔离特定启发式策略的对抗性示例,同时确保数据分布的平衡性与标注一致性。此外,生成涵盖多样句法结构且避免偏差的模板,以及维持前提与假设间逻辑关系的严谨性,均为数据集构建的关键难点。
常用场景
经典使用场景
在自然语言推理领域,HANS数据集被广泛用于评估模型对句法启发式偏见的鲁棒性。该数据集精心构造了包含词汇重叠、子序列和句法结构等启发式陷阱的样本,迫使模型超越表面模式进行深层语义推理。研究者通常将HANS作为验证集或测试集,系统检验模型是否过度依赖浅层线索而忽略逻辑蕴涵关系,从而揭示神经网络在语言理解中的认知局限。
解决学术问题
该数据集有效解决了自然语言处理中模型过度拟合表面启发式策略的经典难题。通过构建反例样本,HANS揭示了神经网络常误将词汇重叠等同于蕴涵关系的认知偏差,推动了可解释人工智能的发展。其意义在于建立了量化评估模型推理能力的标尺,促使学界从追求基准性能转向关注推理过程的合理性,为构建真正理解语言逻辑的智能系统奠定理论基础。
实际应用
在实际工程应用中,HANS数据集成为优化对话系统与智能客服推理模块的重要工具。企业研发团队利用其检测问答系统是否仅依赖关键词匹配而忽视语境逻辑,例如在医疗咨询或法律文书分析场景中,避免因表面语义相似性导致误判。该数据集还能辅助教育科技产品开发,通过识别学生作文中的逻辑谬误,提升自动批改系统的语义理解深度。
数据集最近研究
最新研究方向
在自然语言推理领域,HANS数据集作为评估模型鲁棒性的关键工具,其最新研究聚焦于揭示和缓解神经网络中的语法启发式偏差。随着预训练语言模型的广泛应用,研究者们利用HANS深入探究模型对词汇重叠、子序列匹配等表面线索的过度依赖,从而推动更具泛化能力的推理系统发展。这一方向不仅关联到模型可解释性热点,还促进了对抗性评估方法的创新,对提升人工智能在复杂语义理解任务中的可靠性具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作