five

WiCE

收藏
github2023-12-15 更新2024-05-31 收录
下载链接:
https://github.com/ryokamoi/wice
下载链接
链接失效反馈
官方服务:
资源简介:
WiCE是一个基于自然声明和证据对的细粒度文本蕴含数据集,从维基百科中提取。给定维基百科中的一个句子及其引用的相应文章,我们注释了蕴含标签,支持声明句子的引文文章中的句子列表,以及声明中未被文章支持的令牌。

WiCE is a fine-grained textual entailment dataset based on natural claims and evidence pairs, extracted from Wikipedia. Given a sentence from Wikipedia and its corresponding cited article, we annotated entailment labels, a list of sentences from the cited article that support the claim, and tokens in the claim that are not supported by the article.
创建时间:
2023-03-01
原始信息汇总

WiCE Dataset 概述

数据集描述

WiCE 是一个细粒度的文本蕴含数据集,基于维基百科中的自然声明和证据对构建。该数据集包含以下内容:

  • 声明句子:维基百科中的句子。
  • 证据:支持声明句子的引用文章中的句子列表。
  • 蕴含标签:标注的蕴含标签,包括 supported, partially_supported, not_supported
  • 非支持令牌:声明中未被文章支持的令牌。

数据集结构

蕴含与检索

  • 位置data/entailment_retrieval
  • 内容:包含训练、开发和测试集的 jsonl 文件,每个文件包含声明、支持句子的索引、证据句子列表等。

非支持令牌

  • 位置data/non_supported_tokens
  • 内容:仅包含标注为 partially_supported 的子声明,以及对应的非支持令牌标注。

数据集用途

WiCE 数据集主要用于以下三个任务:

  1. 蕴含分类:判断声明与证据之间的蕴含关系。
  2. 证据句子检索:从证据文章中检索支持声明的句子。
  3. 非支持令牌检测:识别声明中未被证据支持的令牌。

数据集示例

蕴含与检索示例

json { "label": "partially_supported", "supporting_sentences": [[5, 15], [15, 17]], "claim": "Arnold is currently the publisher and editorial director of Media Play News...", "evidence": [list of evidence sentences], "meta": {"id": "dev02986", "claim_title": "Roger Hedgecock", "claim_section": "Other endeavors.", "claim_context": [paragraph]} }

非支持令牌示例

json { "claim": "Irene Hervey appeared in over fifty films and numerous television series.", "claim_tokens": ["Irene", "Hervey", "appeared", "in", "over", "fifty", "films", "and", "numerous", "television", "series", "."], "non_supported_spans": [false, false, false, false, true, true, false, false, false, false, false, false], "evidence": [list of evidence sentences], "meta": {"id": "test00561-1", "claim_title": "Irene Hervey", "claim_section": "Abstract.", "claim_context": "Irene Hervey was an American film, stage, and television actress."} }

数据集评估

评估方法

  • 蕴含分类模型:需要首先从证据文章中检索证据句子。
  • 证据检索模型:使用 data/entailment_retrieval 中的数据进行评估。

预处理数据集

许可证

数据集的许可证信息请参考 LICENSE.md 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
WiCE数据集的构建基于从维基百科中提取的自然声明与证据对。通过标注维基百科中的句子及其引用的文章,数据集详细记录了每个声明的蕴含标签、支持该声明的证据句子列表,以及声明中未被文章支持的词汇。这一过程不仅确保了数据的多样性和复杂性,还通过细粒度的标注提升了数据集的科学价值。
特点
WiCE数据集的特点在于其精细的标注和多样的任务适用性。数据集不仅提供了蕴含分类、证据句子检索等传统任务的支持,还特别关注了声明中未被支持的词汇检测。这种多维度的标注方式使得WiCE成为评估自然语言处理模型在复杂语境下表现的重要工具。
使用方法
使用WiCE数据集时,研究者首先需要从证据文章中检索出相关的证据句子,这一步骤对于处理长输入上下文的模型尤为重要。数据集提供了详细的指导和示例,帮助用户有效地进行模型评估。此外,数据集还包含了一个模拟完美证据检索模型的‘oracle retrieval dataset’,为研究者提供了一个无需复杂检索步骤的简化评估环境。
背景与挑战
背景概述
WiCE数据集由Ryo Kamoi、Tanya Goyal、Juan Diego Rodriguez和Greg Durrett等研究人员于2023年创建,旨在解决维基百科中声明与证据之间的真实世界蕴含关系问题。该数据集基于自然语言处理领域中的文本蕴含任务,专注于从维基百科中提取的声明与引用文章之间的细粒度蕴含关系。WiCE数据集不仅支持蕴含分类任务,还涵盖了证据句子检索和非支持词元检测等任务,为自然语言理解提供了更为丰富的评估基准。该数据集在2023年EMNLP会议上发布,迅速成为相关领域研究的重要资源。
当前挑战
WiCE数据集在构建和应用过程中面临多重挑战。首先,文本蕴含任务本身具有复杂性,尤其是在处理长文本和细粒度标注时,如何准确判断声明与证据之间的蕴含关系成为一大难题。其次,数据集的构建依赖于人工标注,而维基百科中的声明与引用文章之间的关联性往往模糊不清,导致标注过程中存在较高的主观性和不一致性。此外,证据检索任务要求模型能够从大量文本中精准定位支持声明的句子,这对模型的检索能力和计算效率提出了极高要求。最后,非支持词元检测任务需要模型具备对文本细节的敏感度,如何在部分支持的声明中识别出未得到证据支持的词元,也是该数据集的一大挑战。
常用场景
经典使用场景
WiCE数据集主要用于评估自然语言处理中的文本蕴含任务,特别是在维基百科中提取的声明与证据对之间的蕴含关系。该数据集通过精细的标注,支持蕴含分类、证据句子检索以及未支持词元检测等任务。研究人员可以利用WiCE数据集来训练和评估模型在处理复杂文本蕴含问题时的性能,尤其是在处理长文本和跨文档检索时的表现。
实际应用
WiCE数据集在实际应用中具有广泛的价值。例如,它可以用于构建自动化的维基百科事实核查系统,帮助用户快速验证维基百科中的声明是否得到可靠证据的支持。此外,该数据集还可以应用于新闻媒体的自动化事实核查,帮助记者和编辑快速识别和纠正不准确的信息。在教育领域,WiCE数据集也可以用于开发智能教学工具,帮助学生理解和分析复杂文本中的蕴含关系。
衍生相关工作
WiCE数据集的发布推动了多个相关领域的研究工作。例如,基于WiCE数据集的研究成果已经被应用于改进文本蕴含模型的性能,特别是在处理长文本和跨文档检索时的表现。此外,该数据集还激发了关于证据检索和未支持词元检测的新方法研究。一些研究团队还利用WiCE数据集开发了新的模型评估框架,进一步推动了自然语言处理领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作