Dzeniks/hover

Name: Dzeniks/hover
Creator: Dzeniks
Published: 2023-05-04 16:59:13
License: 暂无描述

Hugging Face2023-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Dzeniks/hover

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-classification --- # Hover Dataset The Hover dataset is a collection of labeled examples for many-hop fact extraction and claim verification tasks. It contains claims, with each claim labeled as either "Supports" or "Refutes". The dataset was created by Yichen Jiang, Shikha Bordia, Zheng Zhong, Charles Dognin, Maneesh Singh, and Mohit Bansal, and was presented in their paper "HoVer: A Dataset for Many-Hop Fact Extraction and Claim Verification" at the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) [Hover page](https://hover-nlp.github.io/). ## Format The Hover dataset is formatted as a TSV file, with each line containing the following fields: - **Claim:** The text of the claim to be verified. - **Label:** The label for the claim, either "0" for "Supports" or "1" for "Refutes". - **Explanation:** A sentence or phrase explaining why the claim is labeled as such. - **Evidence:** Evidence supporting or refuting the claim, if available. This may be a URL or a short text snippet.

许可证：MIT协议任务类别： - 文本分类 ## Hover 数据集（Hover Dataset） Hover数据集是面向多跳事实抽取与主张验证任务的标注样本集，收录多条待验证主张，每条主张均被标注为“支持（Supports）”或“驳斥（Refutes）”两类之一。该数据集由Yichen Jiang、Shikha Bordia、Zheng Zhong、Charles Dognin、Maneesh Singh与Mohit Bansal构建，并发表于2020年自然语言处理经验方法会议（EMNLP）的论文《HoVer: A Dataset for Many-Hop Fact Extraction and Claim Verification》，其官方项目主页为[Hover页面](https://hover-nlp.github.io/)。 ## 数据格式 Hover数据集采用TSV文件格式存储，每行包含以下四个字段： - **主张（Claim）：** 待验证主张的完整文本内容。 - **标签（Label）：** 对应主张的标注标签，其中“0”代表“支持（Supports）”，“1”代表“驳斥（Refutes）”。 - **解释（Explanation）：** 用于说明该主张标注理由的语句或短语。 - **证据（Evidence）：** 用于支持或驳斥该主张的佐证材料（若有），可为URL链接或简短文本片段。

提供机构：

Dzeniks

原始信息汇总

Hover 数据集概述

数据集描述

名称: Hover 数据集
目的: 用于多跳事实提取和声明验证任务
内容: 包含声明及其标签，标签分为“支持”（0）和“反驳”（1）
创建者: Yichen Jiang, Shikha Bordia, Zheng Zhong, Charles Dognin, Maneesh Singh, Mohit Bansal
发布: 在2020年自然语言处理实证方法会议(EMNLP)上发布

数据格式

文件类型: TSV文件
字段:
- Claim: 待验证的声明文本
- Label: 声明的标签，0表示“支持”，1表示“反驳”
- Explanation: 解释声明为何被标记为此标签的句子或短语
- Evidence: 支持或反驳声明的证据，可能为URL或文本片段

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多跳事实抽取与声明验证任务对模型推理能力提出更高要求。Hover数据集由Yichen Jiang等学者于2020年EMNLP会议上提出，其构建过程基于结构化数据采集与人工标注相结合的方法。研究团队从维基百科等可信知识源中提取声明与证据链，通过多轮迭代的标注流程，确保每个声明均配备支持或反驳的标签及解释性文本。数据以TSV格式存储，每条记录包含声明文本、二元分类标签、解释语句及证据来源，形成了层次化的事实验证框架。

特点

该数据集的核心特点在于其专注于多跳推理场景，要求模型跨越多个证据片段进行逻辑关联。声明标签采用二元分类体系，分别对应“支持”与“反驳”两类，并辅以自然语言解释，增强了数据的可解释性。证据字段融合了文本片段与外部链接，既提供直接语境，又保留溯源能力。这种设计不仅模拟了真实世界中的复杂验证环境，也为模型提供了从表面语义到深层推理的训练基础，推动了自然语言理解向逻辑推理方向的延伸。

使用方法

使用Hover数据集时，研究者可将其应用于声明验证、事实检索及多跳推理模型的训练与评估。典型流程包括加载TSV格式文件，解析声明、标签、解释与证据四个字段，构建文本分类或序列标注任务。在预处理阶段，需注意证据字段可能包含非结构化文本或URL，建议结合外部知识库进行增强。该数据集适用于监督学习框架，通过微调预训练语言模型，可提升模型在跨文档推理任务中的性能，并为可解释人工智能研究提供基准数据。

背景与挑战

背景概述

在自然语言处理领域，事实核查与多跳推理任务长期面临证据链复杂、逻辑关联隐晦的挑战。为应对这一难题，由Yichen Jiang、Shikha Bordia等学者组成的团队于2020年EMNLP会议上发布了Hover数据集。该数据集专注于多跳事实提取与声明验证，通过标注“支持”或“反驳”标签及相应证据，旨在推动模型在跨文档推理与细粒度语义理解方面的研究。其构建不仅深化了自动事实核查的技术路径，也为知识密集型自然语言处理任务提供了关键基准，对信息可信度评估领域产生了显著影响。

当前挑战

Hover数据集所针对的多跳事实核查任务，核心挑战在于模型需从分散且互相关联的文档中整合信息，进行深层逻辑推理，而非依赖表面语义匹配。构建过程中，研究人员面临证据收集与标注的复杂性：证据源可能涉及多样化的文本片段或网络链接，要求标注者具备较高的领域知识以准确判断声明与证据间的逻辑关系，同时确保数据的一致性与可靠性。这些挑战使得数据集成为检验模型鲁棒性与推理能力的重要试金石。

常用场景

经典使用场景

在自然语言处理领域，多跳事实提取与声明验证任务常面临推理链条复杂的挑战。Hover数据集通过提供带有支持或反驳标签的声明及其解释与证据，成为评估模型在多步推理中准确性的经典基准。研究者利用该数据集训练和测试模型，以模拟人类在跨文档信息检索与逻辑推断中的认知过程，推动智能系统在复杂语境下的理解能力提升。

衍生相关工作

基于Hover数据集，学术界衍生了一系列经典研究工作，例如改进的图神经网络模型用于证据聚合，以及结合检索增强生成技术的端到端验证系统。这些工作不仅优化了多跳推理的效率，还推动了如FEVEROUS等后续数据集的开发，进一步扩展了事实提取与验证的研究边界，为自然语言处理领域的可解释性探索奠定了坚实基础。

数据集最近研究