five

WIKICOLLIDE

收藏
arXiv2025-09-27 更新2025-10-01 收录
下载链接:
https://en.wikipedia.org/wiki/Wikipedia:Vital_articles/Level/5
下载链接
链接失效反馈
官方服务:
资源简介:
WIKICOLLIDE是一个用于Wikipedia语料库级别不一致性检测的数据集。该数据集包含在英文Wikipedia中发现的955个事实,其中34.7%是不一致的。数据集的创建目的是为了解决Wikipedia内部事实不一致的问题,旨在帮助编辑人员提高知识的一致性。

WIKICOLLIDE is a dataset for corpus-level inconsistency detection on Wikipedia. This dataset contains 955 factual statements extracted from English Wikipedia, of which 34.7% are inconsistent. The dataset is developed to address the issue of internal factual inconsistency within Wikipedia, aiming to assist editors in improving the consistency of knowledge.
提供机构:
斯坦福大学计算机科学系
创建时间:
2025-09-27
搜集汇总
数据集介绍
main_image_url
构建方式
在构建WIKICOLLIDE数据集过程中,研究团队采用分层抽样策略,从维基百科第五级重要文章中筛选文本块,确保覆盖历史、科技、社会等多元知识领域。通过GPT-4o模型将文本分解为原子事实,并利用基于检索与语言模型的过滤机制提升潜在矛盾样本比例。最终通过人工标注结合CLAIRE系统辅助验证,形成包含955条事实的标注集,其中34.7%被确认为存在语料库级矛盾。
使用方法
研究者可通过该数据集评估语料库级矛盾检测系统的性能,具体包括检索相关证据文档、分析矛盾类型及验证系统推理能力。使用时应以AUROC为核心指标,结合准确率与F1分数综合评估。数据划分为验证集(477条)与测试集(478条),支持对检索-验证框架、NLI流水线及智能体系统的对比实验。
背景与挑战
背景概述
WIKICOLLIDE数据集由斯坦福大学研究团队于2025年创建,旨在解决大规模知识库中内部不一致性检测的核心问题。作为首个基于真实维基百科矛盾的基准数据集,它聚焦于语料库级知识冲突的识别与验证,填补了传统事实核查任务依赖合成数据的空白。该数据集通过系统化采样维基百科核心条目,结合人类专家标注与AI辅助分析,揭示了知识库中隐含的逻辑矛盾和事实偏差,对自然语言处理领域的可信人工智能研究具有重要推动作用。
当前挑战
该数据集面临领域问题与构建过程的双重挑战。在领域层面,语料库级不一致性检测需突破传统事实核查的单一证据假设,要求系统在亿级文本中穷举反证,并处理数值偏差、时间冲突、实体歧义等复杂矛盾类型。构建过程中,真实不一致性的稀疏性导致样本采集困难,需通过多级过滤与对抗性采样平衡数据分布;同时标注工作依赖领域知识深度,需设计双视角推理框架以区分合理变体与实质矛盾,确保标注结果兼具可解释性与可靠性。
常用场景
经典使用场景
在知识图谱与自然语言处理研究中,WIKICOLLIDE数据集被广泛应用于语料库级不一致性检测任务。该数据集通过从维基百科中提取的真实矛盾事实,为模型验证跨文档知识一致性提供了基准平台。研究者利用其标注的矛盾证据链,训练系统识别同一知识库中相互冲突的陈述,尤其在处理多跳推理和隐式矛盾场景时展现出独特价值。
解决学术问题
该数据集解决了大规模知识库内部一致性验证的核心难题,突破了传统事实核查任务中默认语料统一的假设。通过量化维基百科中至少3.3%的事实存在矛盾,揭示了现有检索增强生成系统面临的知识冲突风险。其标注体系为理解数值偏差、逻辑矛盾、时空冲突等七类不一致模式提供了实证基础,推动了知识可靠性评估范式的演进。
实际应用
在实践层面,该数据集支撑的CLAIRE系统已成为维基百科编辑者的辅助工具,能实时检测浏览页面中的潜在矛盾。通过浏览器扩展插件标注可疑陈述并提供证据链,使编辑者检测效率提升64.7%。这种人机协同机制正逐步应用于教育资料审查、新闻事实核查等领域,为大规模文本质量监控提供了可行路径。
数据集最近研究
最新研究方向
在知识图谱与自然语言处理交叉领域,WIKICOLLIDE数据集推动了语料库级不一致性检测的前沿研究。该方向聚焦于利用大语言模型识别维基百科等大规模知识库中的内部矛盾,通过CLAIRE系统结合检索增强与推理机制,显著提升了真实场景下复杂语义冲突的探测能力。当前研究热点包括多跳推理验证、时序矛盾解析以及跨文档证据聚合技术,这些进展不仅揭示了维基百科中约3.3%的事实存在矛盾,更对检索增强生成系统的可靠性评估提出了新范式。该数据集通过捕捉非合成真实矛盾,为知识一致性维护、事实核查系统优化提供了重要基准,其构建方法论对数字时代知识库的质量控制具有深远影响。
相关研究论文
  • 1
    Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models斯坦福大学计算机科学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作