WikiCollide Dataset

github2025-09-30 更新2025-10-04 收录

下载链接：

https://github.com/stanford-oval/inconsistency-detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于检测维基百科中语料库级别的知识不一致性，包含用于评估CLAIRE代理的开发和测试数据，代理通过工具增强推理来提取原子声明、搜索矛盾证据并生成详细的一致性判断报告

This dataset is designed to detect corpus-level knowledge inconsistencies in Wikipedia corpora. It includes development and test data for evaluating the CLAIRE Agent, which leverages tool-augmented reasoning to extract atomic claims, search for contradictory evidence, and generate detailed consistency assessment reports.

创建时间：

2025-09-19

原始信息汇总

WikiCollide数据集概述

数据集基本信息

数据集名称: WikiCollide
来源: 斯坦福大学OVAL实验室
关联论文: 《Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models》（EMNLP 2025）
数据格式: JSON

数据集内容

数据记录结构

每个JSON记录包含以下字段：

claim字段

claim_id: 唯一标识符
claim_text: 待审查的声明文本
claim_context_block: 声明来源的维基百科章节

标注信息

label: 标注结果，取值为"consistent"或"inconsistent"
label_reasoning: 人工编写的标注理由
inconsistency_type: 不一致类型分类标签（仅在不一致时适用）

不一致类型分类

CategoricalDiscrepancy
DefinitionDiscrepancy
DualityDiscrepancy_Explicit
DualityDiscrepancy_Implicit
NamedEntityDiscrepancy
NumericalDiscrepancy_Clear
NumericalDiscrepancy_OffByOne
SpatialDiscrepancy
TemporalDiscrepancy

辅助信息

agent_trace: 辅助代理行为的顺序记录，包含：
- action_name
- action_argument
- action_output（包含文档标题、章节标题、内容、最后编辑日期、URL等）

数据集用途

训练或基准测试具有规划意识的智能体
检测维基百科中的语料库级知识不一致性
支持声明一致性验证研究

技术背景

基于CLAIRE智能体的三阶段流程：

声明提取：从段落中识别原子语句
证据收集：检索相关维基百科段落
报告生成：生成带有引用的自然语言报告

许可信息

代码许可: Apache 2.0许可证
数据集许可: 知识共享署名4.0国际许可证（CC BY 4.0）

数据获取

数据集位于仓库的wikicollide_dataset/目录下，包含开发集和测试集分割。

搜集汇总

数据集介绍

构建方式

在知识一致性检测领域，WikiCollide数据集的构建采用了多阶段标注流程。研究团队从英文维基百科中提取原始文本片段，通过人工标注识别其中存在的知识矛盾现象。标注过程中针对每项声明进行语义解析，并依据预定义的九类不一致性标签进行归类，包括数值差异、时空矛盾、实体歧义等维度。标注人员需同时提供判断依据的详细书面说明，形成包含声明原文、上下文背景、一致性标签及推理链条的完整数据单元。

特点

该数据集最显著的特征在于其细粒度的问题分类体系，将知识不一致性划分为九种明确类型，为模型理解复杂语义冲突提供了结构化框架。每个数据样本不仅包含二元一致性标签，还附有人类标注的推理过程和辅助智能体执行轨迹，这种多层次标注方式极大增强了数据的可解释性。数据集特别设计了包含行动名称、参数与输出的完整智能体轨迹记录，为训练具备规划能力的智能体提供了珍贵的行为示范数据。

使用方法

研究者可通过加载预分割的开发集与测试集JSON文件快速开展实验，数据集支持直接输入至配套的CLAIRE智能体分析管道。使用流程包含三个核心环节：声明提取模块从文本中识别原子化陈述，证据收集模块通过搜索工具获取相关维基百科段落，报告生成模块则采用反应式智能体架构输出带有引证的自然语言分析报告。用户既可批量处理数据集中的示例，也能通过API接口对任意文本段落进行实时一致性检测，系统会生成包含证据引用的详细一致性评估报告。

背景与挑战

背景概述

在知识图谱与自然语言处理领域，大规模语料库的知识一致性验证一直是核心研究议题。WikiCollide数据集由斯坦福大学OVAL实验室于2025年创建，旨在通过大型语言模型检测维基百科中的语料级知识矛盾。该数据集聚焦于从维基百科文本中提取原子化主张，并利用多阶段推理流程验证其与整个语料库的一致性，为知识可靠性评估和自动事实核查提供了重要基准。

当前挑战

该数据集致力于解决知识一致性检测中的语义理解挑战，包括相似实体歧义消除、跨文档矛盾识别等复杂问题。在构建过程中，研究人员需应对维基百科动态更新的数据特性，设计能够捕捉七类不一致类型的标注体系，同时确保检索证据的覆盖广度与推理链条的可解释性，这对标注规范设计和多步骤推理建模提出了较高要求。

常用场景

经典使用场景

在知识图谱构建与维护领域，WikiCollide数据集被广泛应用于评估大型语言模型检测维基百科内部知识冲突的能力。该数据集通过提取文本中的原子声明，结合多源证据检索与推理机制，系统化地识别语料库层面的逻辑矛盾，为自动化知识一致性验证提供了标准化测试平台。

实际应用

在互联网内容质量监控场景中，该数据集支撑的检测系统能自动发现维基百科条目间的矛盾陈述，辅助编辑者进行知识修正。其多阶段推理架构还可迁移至新闻事实核查、学术文献验证等场景，显著提升信息生态系统的可靠性与一致性。

衍生相关工作

基于该数据集衍生的CLAIRE智能体框架，催生了系列结合工具增强推理的研究工作。其检索-验证双阶段架构被改进应用于多模态知识冲突检测，而标注的矛盾类型体系则启对话系统事实性评估等研究方向，形成了知识一致性技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集