Wikipedia_contradict_benchmark
收藏Wikipedia contradict benchmark 数据集概述
数据集描述
Wikipedia contradict benchmark 是一个基于问答的基准数据集,包含253个高质量的人工标注实例,涵盖不同类型的现实世界知识冲突。每个实例包括一个问题、一对从维基百科提取的矛盾段落以及两个不同的答案,每个答案源自其中一个段落。这些段落由人工标注者标注,标注者识别冲突信息的位置及冲突类型,并生成与段落相关的问题,问题的答案反映了知识来源的冲突。
- 数据集创建者: Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi, Prasanna Sattigeri(均来自IBM Research)
- 语言: 英语
- 许可证: MIT
数据集来源
- 论文: arXiv:2406.13805
数据集用途
直接用途
该数据集用于评估增强检索段落包含现实世界知识冲突时的大型语言模型(LLMs)性能。数据集在论文中用于评估LLMs在处理知识冲突时的表现。
数据集结构
数据集以CSV格式存储,包含253个实例。每个实例包含以下字段:
- title: 文章标题
- url: 文章URL
- paragraph_A: 自动检索的段落(包含标签)
- paragraph_A_clean: 自动检索的段落(去除标签)
- tag: 文章标签类型(Inconsistent/Self-contradictory/Contradict-other)
- tagDate: 标签日期
- tagReason: 标签原因
- wikitag_label_valid: 标签是否有效(Valid/Invalid)
- valid_comment: 标签评论
- paragraphA_article: 包含段落1的文章标题
- paragraphA_information: 段落1的相关信息
- paragraphA_information_standalone: 去上下文的段落1相关信息
- paragraphB_article: 包含段落2的文章标题
- paragraphB_information: 段落2的相关信息
- paragraphB_information_standalone: 去上下文的段落2相关信息
- wikitag_label_samepassage: 段落1和段落2是否相同(Same/Different)
- relevantInfo_comment_A: 段落1信息的评论
- relevantInfo_comment_B: 段落2信息的评论
- Contradict type I: 矛盾类型I(细粒度语义冲突,如日期/时间、地点、语言等)
- Contradict type II: 矛盾类型II(冲突的模态,如文本、信息框或表格)
- Contradict type III: 矛盾类型III(冲突的来源,是否来自同一文章)
- Contradict type IV: 矛盾类型IV(冲突的推理方面,显式或隐式)
- question1: 从矛盾中推断的问题1
- question1_answer1: 根据段落1的黄金答案
- question1_answer2: 根据段落2的黄金答案
- question2: 从矛盾中推断的问题2
- question2_answer1: 根据段落1的黄金答案
- question2_answer2: 根据段落2的黄金答案
数据集创建
创建动机
检索增强生成(RAG)作为一种缓解大型语言模型(LLMs)局限性的解决方案,如幻觉和过时信息,但LLMs如何处理来自不同增强检索段落的知识冲突仍不清楚。Wikipedia Contradict Benchmark旨在全面评估LLM生成的答案,这些问题基于维基百科中的矛盾段落,维基百科被广泛认为是大多数LLMs的高质量预训练资源。
源数据
数据收集和处理
数据主要以原始文本形式收集自包含不一致、自相矛盾和与其他文章矛盾标签的维基百科文章。标注者验证标签的有效性,检查相关文章内容、编辑评论以及编辑历史和文章讨论页面(如有必要)。
源数据生产者
维基百科贡献者。
标注
标注过程
标注界面使用Label Studio开发。标注者需对原始段落进行轻微修改,使其独立(去上下文)。详细信息请参见论文的标注指南。
标注者
Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi
偏差、风险和限制
每个标注实例包含至少一个问题和两个可能的答案,但某些实例可能包含更多问题(及相应答案)。某些实例可能不包含paragraphA_clean、tagDate和tagReason的值。
建议
数据来自维基百科,因此偏向原始内容和来源。由于人工标注涉及一定主观性,我们创建了17页的标注指南文档以澄清重要案例。标注者被明确指示不要受个人情感影响。尽管如此,标注过程中仍可能引入一定主观性。
引用
如果使用该数据集,请引用以下论文:
BibTeX:
bibtex @article{hou2024wikicontradict, title={{WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia}}, author={Hou, Yufang and Pascale, Alessandra and Carnerero-Cano, Javier and Tchrakian, Tigran and Marinescu, Radu and Daly, Elizabeth and Padhi, Inkit and Sattigeri, Prasanna}, journal={arXiv preprint arXiv:2406.13805}, year={2024} }
APA:
Hou, Y., Pascale, A., Carnerero-Cano, J., Tchrakian, T., Marinescu, R., Daly, E., Padhi, I., & Sattigeri, P. (2024). WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia. arXiv preprint arXiv:2406.13805.




