WIKICOLLIDE

Name: WIKICOLLIDE
Creator: 斯坦福大学计算机科学系
Published: 2025-09-27 18:32:41
License: 暂无描述

arXiv2025-09-27 更新2025-10-01 收录

下载链接：

https://en.wikipedia.org/wiki/Wikipedia:Vital_articles/Level/5

下载链接

链接失效反馈

官方服务：

资源简介：

WIKICOLLIDE是一个用于Wikipedia语料库级别不一致性检测的数据集。该数据集包含在英文Wikipedia中发现的955个事实，其中34.7%是不一致的。数据集的创建目的是为了解决Wikipedia内部事实不一致的问题，旨在帮助编辑人员提高知识的一致性。

WIKICOLLIDE is a dataset for corpus-level inconsistency detection on Wikipedia. This dataset contains 955 factual statements extracted from English Wikipedia, of which 34.7% are inconsistent. The dataset is developed to address the issue of internal factual inconsistency within Wikipedia, aiming to assist editors in improving the consistency of knowledge.

提供机构：

斯坦福大学计算机科学系

创建时间：

2025-09-27

搜集汇总

数据集介绍

构建方式

在构建WIKICOLLIDE数据集过程中，研究团队采用分层抽样策略，从维基百科第五级重要文章中筛选文本块，确保覆盖历史、科技、社会等多元知识领域。通过GPT-4o模型将文本分解为原子事实，并利用基于检索与语言模型的过滤机制提升潜在矛盾样本比例。最终通过人工标注结合CLAIRE系统辅助验证，形成包含955条事实的标注集，其中34.7%被确认为存在语料库级矛盾。

使用方法

研究者可通过该数据集评估语料库级矛盾检测系统的性能，具体包括检索相关证据文档、分析矛盾类型及验证系统推理能力。使用时应以AUROC为核心指标，结合准确率与F1分数综合评估。数据划分为验证集（477条）与测试集（478条），支持对检索-验证框架、NLI流水线及智能体系统的对比实验。

背景与挑战

背景概述

WIKICOLLIDE数据集由斯坦福大学研究团队于2025年创建，旨在解决大规模知识库中内部不一致性检测的核心问题。作为首个基于真实维基百科矛盾的基准数据集，它聚焦于语料库级知识冲突的识别与验证，填补了传统事实核查任务依赖合成数据的空白。该数据集通过系统化采样维基百科核心条目，结合人类专家标注与AI辅助分析，揭示了知识库中隐含的逻辑矛盾和事实偏差，对自然语言处理领域的可信人工智能研究具有重要推动作用。

当前挑战

该数据集面临领域问题与构建过程的双重挑战。在领域层面，语料库级不一致性检测需突破传统事实核查的单一证据假设，要求系统在亿级文本中穷举反证，并处理数值偏差、时间冲突、实体歧义等复杂矛盾类型。构建过程中，真实不一致性的稀疏性导致样本采集困难，需通过多级过滤与对抗性采样平衡数据分布；同时标注工作依赖领域知识深度，需设计双视角推理框架以区分合理变体与实质矛盾，确保标注结果兼具可解释性与可靠性。

常用场景

经典使用场景

在知识图谱与自然语言处理研究中，WIKICOLLIDE数据集被广泛应用于语料库级不一致性检测任务。该数据集通过从维基百科中提取的真实矛盾事实，为模型验证跨文档知识一致性提供了基准平台。研究者利用其标注的矛盾证据链，训练系统识别同一知识库中相互冲突的陈述，尤其在处理多跳推理和隐式矛盾场景时展现出独特价值。

解决学术问题

该数据集解决了大规模知识库内部一致性验证的核心难题，突破了传统事实核查任务中默认语料统一的假设。通过量化维基百科中至少3.3%的事实存在矛盾，揭示了现有检索增强生成系统面临的知识冲突风险。其标注体系为理解数值偏差、逻辑矛盾、时空冲突等七类不一致模式提供了实证基础，推动了知识可靠性评估范式的演进。

实际应用

在实践层面，该数据集支撑的CLAIRE系统已成为维基百科编辑者的辅助工具，能实时检测浏览页面中的潜在矛盾。通过浏览器扩展插件标注可疑陈述并提供证据链，使编辑者检测效率提升64.7%。这种人机协同机制正逐步应用于教育资料审查、新闻事实核查等领域，为大规模文本质量监控提供了可行路径。

数据集最近研究