WiCE

github2023-12-15 更新2024-05-31 收录

下载链接：

https://github.com/ryokamoi/wice

下载链接

链接失效反馈

官方服务：

资源简介：

WiCE是一个基于自然声明和证据对的细粒度文本蕴含数据集，从维基百科中提取。给定维基百科中的一个句子及其引用的相应文章，我们注释了蕴含标签，支持声明句子的引文文章中的句子列表，以及声明中未被文章支持的令牌。

WiCE is a fine-grained textual entailment dataset based on natural claims and evidence pairs, extracted from Wikipedia. Given a sentence from Wikipedia and its corresponding cited article, we annotated entailment labels, a list of sentences from the cited article that support the claim, and tokens in the claim that are not supported by the article.

创建时间：

2023-03-01

原始信息汇总

WiCE Dataset 概述

数据集描述

WiCE 是一个细粒度的文本蕴含数据集，基于维基百科中的自然声明和证据对构建。该数据集包含以下内容：

声明句子：维基百科中的句子。
证据：支持声明句子的引用文章中的句子列表。
蕴含标签：标注的蕴含标签，包括 supported, partially_supported, not_supported。
非支持令牌：声明中未被文章支持的令牌。

数据集结构

蕴含与检索

位置：data/entailment_retrieval
内容：包含训练、开发和测试集的 jsonl 文件，每个文件包含声明、支持句子的索引、证据句子列表等。

非支持令牌

位置：data/non_supported_tokens
内容：仅包含标注为 partially_supported 的子声明，以及对应的非支持令牌标注。

数据集用途

WiCE 数据集主要用于以下三个任务：

蕴含分类：判断声明与证据之间的蕴含关系。
证据句子检索：从证据文章中检索支持声明的句子。
非支持令牌检测：识别声明中未被证据支持的令牌。

数据集示例

蕴含与检索示例

json { "label": "partially_supported", "supporting_sentences": [[5, 15], [15, 17]], "claim": "Arnold is currently the publisher and editorial director of Media Play News...", "evidence": [list of evidence sentences], "meta": {"id": "dev02986", "claim_title": "Roger Hedgecock", "claim_section": "Other endeavors.", "claim_context": [paragraph]} }

非支持令牌示例

json { "claim": "Irene Hervey appeared in over fifty films and numerous television series.", "claim_tokens": ["Irene", "Hervey", "appeared", "in", "over", "fifty", "films", "and", "numerous", "television", "series", "."], "non_supported_spans": [false, false, false, false, true, true, false, false, false, false, false, false], "evidence": [list of evidence sentences], "meta": {"id": "test00561-1", "claim_title": "Irene Hervey", "claim_section": "Abstract.", "claim_context": "Irene Hervey was an American film, stage, and television actress."} }

数据集评估

评估方法

蕴含分类模型：需要首先从证据文章中检索证据句子。
证据检索模型：使用 data/entailment_retrieval 中的数据进行评估。

预处理数据集

Oracle 检索数据集：用于模拟完美证据检索模型的数据集，位于 code_and_resources/entailment_inputs/oracle_chunks/。

许可证

数据集的许可证信息请参考 LICENSE.md 文件。

搜集汇总

数据集介绍

构建方式

WiCE数据集的构建基于从维基百科中提取的自然声明与证据对。通过标注维基百科中的句子及其引用的文章，数据集详细记录了每个声明的蕴含标签、支持该声明的证据句子列表，以及声明中未被文章支持的词汇。这一过程不仅确保了数据的多样性和复杂性，还通过细粒度的标注提升了数据集的科学价值。

特点

WiCE数据集的特点在于其精细的标注和多样的任务适用性。数据集不仅提供了蕴含分类、证据句子检索等传统任务的支持，还特别关注了声明中未被支持的词汇检测。这种多维度的标注方式使得WiCE成为评估自然语言处理模型在复杂语境下表现的重要工具。

使用方法

使用WiCE数据集时，研究者首先需要从证据文章中检索出相关的证据句子，这一步骤对于处理长输入上下文的模型尤为重要。数据集提供了详细的指导和示例，帮助用户有效地进行模型评估。此外，数据集还包含了一个模拟完美证据检索模型的‘oracle retrieval dataset’，为研究者提供了一个无需复杂检索步骤的简化评估环境。

背景与挑战

背景概述

WiCE数据集由Ryo Kamoi、Tanya Goyal、Juan Diego Rodriguez和Greg Durrett等研究人员于2023年创建，旨在解决维基百科中声明与证据之间的真实世界蕴含关系问题。该数据集基于自然语言处理领域中的文本蕴含任务，专注于从维基百科中提取的声明与引用文章之间的细粒度蕴含关系。WiCE数据集不仅支持蕴含分类任务，还涵盖了证据句子检索和非支持词元检测等任务，为自然语言理解提供了更为丰富的评估基准。该数据集在2023年EMNLP会议上发布，迅速成为相关领域研究的重要资源。

当前挑战

WiCE数据集在构建和应用过程中面临多重挑战。首先，文本蕴含任务本身具有复杂性，尤其是在处理长文本和细粒度标注时，如何准确判断声明与证据之间的蕴含关系成为一大难题。其次，数据集的构建依赖于人工标注，而维基百科中的声明与引用文章之间的关联性往往模糊不清，导致标注过程中存在较高的主观性和不一致性。此外，证据检索任务要求模型能够从大量文本中精准定位支持声明的句子，这对模型的检索能力和计算效率提出了极高要求。最后，非支持词元检测任务需要模型具备对文本细节的敏感度，如何在部分支持的声明中识别出未得到证据支持的词元，也是该数据集的一大挑战。

常用场景

经典使用场景

WiCE数据集主要用于评估自然语言处理中的文本蕴含任务，特别是在维基百科中提取的声明与证据对之间的蕴含关系。该数据集通过精细的标注，支持蕴含分类、证据句子检索以及未支持词元检测等任务。研究人员可以利用WiCE数据集来训练和评估模型在处理复杂文本蕴含问题时的性能，尤其是在处理长文本和跨文档检索时的表现。

实际应用

WiCE数据集在实际应用中具有广泛的价值。例如，它可以用于构建自动化的维基百科事实核查系统，帮助用户快速验证维基百科中的声明是否得到可靠证据的支持。此外，该数据集还可以应用于新闻媒体的自动化事实核查，帮助记者和编辑快速识别和纠正不准确的信息。在教育领域，WiCE数据集也可以用于开发智能教学工具，帮助学生理解和分析复杂文本中的蕴含关系。

衍生相关工作

WiCE数据集的发布推动了多个相关领域的研究工作。例如，基于WiCE数据集的研究成果已经被应用于改进文本蕴含模型的性能，特别是在处理长文本和跨文档检索时的表现。此外，该数据集还激发了关于证据检索和未支持词元检测的新方法研究。一些研究团队还利用WiCE数据集开发了新的模型评估框架，进一步推动了自然语言处理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集