jon-tow/wice

Name: jon-tow/wice
Creator: jon-tow
Published: 2024-07-11 12:02:01
License: 暂无描述

Hugging Face2024-07-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jon-tow/wice

下载链接

链接失效反馈

官方服务：

资源简介：

WiCE是一个细粒度的文本蕴含数据集，基于从Wikipedia中提取的自然声明和证据对进行标注。给定Wikipedia中的一个句子及其引用的文章，我们标注了蕴含标签、支持声明句子的引用文章中的句子列表，以及声明中未被文章支持的标记。这是`entailment_retrieval`子集，包含用于蕴含和检索任务的WiCE数据集。`claim`包含原始声明的数据，而`subclaim`包含分解后的声明数据（通过使用Claim-Split进行细粒度标注）。

提供机构：

jon-tow

原始信息汇总

WiCE 数据集详情

数据集描述

WiCE 是一个细粒度的文本蕴含数据集，基于从维基百科中提取的自然声明和证据对构建。给定维基百科中的一个句子及其引用的文章，我们标注了蕴含标签，引用的文章中支持声明句的句子列表，以及声明中未被文章支持的标记。

该数据集是 entailment_retrieval 子集，包括用于蕴含和检索任务的 WiCE 数据集。claim 包含原始声明的数据，subclaim 包含分解后的声明数据（通过使用 Claim-Split 进行细粒度标注）。

数据文件

claim 配置

训练集: data/claim_train.jsonl
验证集: data/claim_dev.jsonl
测试集: data/claim_test.jsonl

subclaim 配置

训练集: data/subclaim_train.jsonl
验证集: data/subclaim_dev.jsonl
测试集: data/subclaim_test.jsonl

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的文本蕴含数据集对于模型评估至关重要。WiCE数据集通过从维基百科中提取自然生成的声明与证据对，构建了一个细粒度的文本蕴含数据集。其构建过程涉及对维基百科句子及其引用的文章进行人工标注，确定蕴含标签、支持声明的证据句子列表，以及声明中未被文章支持的特定词汇。该数据集进一步提供了原始声明和经过分解的子声明两种配置，后者通过Claim-Split方法实现了更精细的注释层次。

使用方法

该数据集主要用于文本蕴含和证据检索任务的模型训练与评估。用户可通过Hugging Face平台加载`jon-tow/wice`数据集，并选择`claim`（原始声明）或`subclaim`（分解后的子声明）配置。每个配置均包含标准的训练集、验证集和测试集划分，数据以JSON Lines格式存储。研究人员可利用这些数据训练模型以判断声明是否被证据蕴含，并精确定位证据句及声明中的薄弱环节。使用前请遵循其许可证规定，并引用相关学术论文。

背景与挑战

背景概述

在自然语言处理领域，文本蕴含任务旨在评估一个前提文本是否能够推断出假设文本的真实性，这一任务对于验证信息的真实性与可靠性至关重要。WiCE数据集由Ryo Kamoi、Tanya Goyal、Juan Rodriguez和Greg Durrett等研究人员于2023年创建，其核心研究问题聚焦于从维基百科中提取真实的声明与证据对，以构建细粒度的文本蕴含数据集。该数据集通过标注蕴含标签、支持声明的证据句子以及未受支持的声明词汇，为自然语言理解提供了更为精确的评估基准，显著推动了信息验证和事实核查领域的研究进展，增强了模型在真实世界场景中的推理能力。

当前挑战

WiCE数据集致力于解决文本蕴含任务中的挑战，特别是在真实世界声明验证方面，其核心挑战在于处理维基百科中声明与证据之间的复杂语义关系，这要求模型不仅理解表面文本，还需进行深层次的逻辑推理。在构建过程中，研究人员面临的主要挑战包括从维基百科中自动提取高质量的声明-证据对，并确保标注的准确性与一致性；此外，数据集还涉及声明分解的细粒度标注，这增加了数据处理的复杂性，要求精细的语义分割和人工验证，以应对自然语言中模糊性和多样性的问题。

常用场景

经典使用场景

在自然语言处理领域，文本蕴含任务旨在判断一个前提文本是否能够推断出假设文本的内容。WiCE数据集通过从维基百科中提取真实的声明与证据对，为这一任务提供了细粒度的标注资源。其经典使用场景在于训练和评估模型在真实世界文本中的蕴含识别能力，特别是在处理维基百科这类大规模知识库时，模型需要精准判断声明句与引用文章之间的逻辑支持关系，从而提升自动化事实核查与知识验证的准确性。

解决学术问题

WiCE数据集主要解决了自然语言处理中真实世界文本蕴含的学术挑战。传统蕴含数据集往往基于构造或简化文本，缺乏实际应用中的复杂性和噪声。WiCE通过标注维基百科声明与对应引用文章之间的蕴含标签、支持句子及未支持词元，为研究提供了细粒度、真实场景的数据基础。这有助于推动模型在开放域知识验证、事实一致性检测等方向的发展，弥补了理论与实际应用之间的鸿沟，对提升语言模型的推理与可信度具有重要意义。

实际应用

在实际应用中，WiCE数据集可广泛应用于知识库增强与内容验证系统。例如，在维基百科等在线百科平台的自动编辑审核中，模型可利用该数据集训练以识别声明是否得到可靠来源的支持，从而辅助人工编辑进行事实核查。此外，在新闻媒体或教育领域，它也能用于构建自动化事实检查工具，帮助用户快速评估信息的可信度，减少错误信息的传播，提升数字内容的质量与可靠性。

数据集最近研究