Wikipedia_contradict_benchmark

Hugging Face2024-07-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ibm/Wikipedia_contradict_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Wikipedia contradict benchmark 是一个包含253个高质量人工标注实例的数据集，旨在评估大型语言模型（LLMs）在增强包含现实世界知识冲突的检索段落时的性能。每个实例包括一个问题、一对从维基百科提取的矛盾段落以及基于这些段落得出的两个不同答案。数据集由IBM Research的研究人员策划，用于评估LLMs在处理来自不同来源的知识冲突时的表现。数据集以JSON格式提供，包含文章标题、URL、段落、标签和注释等多个字段。该数据集适用于问答任务，并专注于评估LLMs在存在显性和隐性矛盾情况下的表现。

提供机构：

IBM

创建时间：

2024-07-04

原始信息汇总

Wikipedia contradict benchmark 数据集概述

数据集描述

Wikipedia contradict benchmark 是一个基于问答的基准数据集，包含253个高质量的人工标注实例，涵盖不同类型的现实世界知识冲突。每个实例包括一个问题、一对从维基百科提取的矛盾段落以及两个不同的答案，每个答案源自其中一个段落。这些段落由人工标注者标注，标注者识别冲突信息的位置及冲突类型，并生成与段落相关的问题，问题的答案反映了知识来源的冲突。

数据集创建者： Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi, Prasanna Sattigeri（均来自IBM Research）
语言： 英语
许可证： MIT

数据集来源

论文： arXiv:2406.13805

数据集用途

直接用途

该数据集用于评估增强检索段落包含现实世界知识冲突时的大型语言模型（LLMs）性能。数据集在论文中用于评估LLMs在处理知识冲突时的表现。

数据集结构

数据集以CSV格式存储，包含253个实例。每个实例包含以下字段：

title: 文章标题
url: 文章URL
paragraph_A: 自动检索的段落（包含标签）
paragraph_A_clean: 自动检索的段落（去除标签）
tag: 文章标签类型（Inconsistent/Self-contradictory/Contradict-other）
tagDate: 标签日期
tagReason: 标签原因
wikitag_label_valid: 标签是否有效（Valid/Invalid）
valid_comment: 标签评论
paragraphA_article: 包含段落1的文章标题
paragraphA_information: 段落1的相关信息
paragraphA_information_standalone: 去上下文的段落1相关信息
paragraphB_article: 包含段落2的文章标题
paragraphB_information: 段落2的相关信息
paragraphB_information_standalone: 去上下文的段落2相关信息
wikitag_label_samepassage: 段落1和段落2是否相同（Same/Different）
relevantInfo_comment_A: 段落1信息的评论
relevantInfo_comment_B: 段落2信息的评论
Contradict type I: 矛盾类型I（细粒度语义冲突，如日期/时间、地点、语言等）
Contradict type II: 矛盾类型II（冲突的模态，如文本、信息框或表格）
Contradict type III: 矛盾类型III（冲突的来源，是否来自同一文章）
Contradict type IV: 矛盾类型IV（冲突的推理方面，显式或隐式）
question1: 从矛盾中推断的问题1
question1_answer1: 根据段落1的黄金答案
question1_answer2: 根据段落2的黄金答案
question2: 从矛盾中推断的问题2
question2_answer1: 根据段落1的黄金答案
question2_answer2: 根据段落2的黄金答案

数据集创建

创建动机

检索增强生成（RAG）作为一种缓解大型语言模型（LLMs）局限性的解决方案，如幻觉和过时信息，但LLMs如何处理来自不同增强检索段落的知识冲突仍不清楚。Wikipedia Contradict Benchmark旨在全面评估LLM生成的答案，这些问题基于维基百科中的矛盾段落，维基百科被广泛认为是大多数LLMs的高质量预训练资源。

源数据

数据收集和处理

数据主要以原始文本形式收集自包含不一致、自相矛盾和与其他文章矛盾标签的维基百科文章。标注者验证标签的有效性，检查相关文章内容、编辑评论以及编辑历史和文章讨论页面（如有必要）。

源数据生产者

维基百科贡献者。

标注

标注过程

标注界面使用Label Studio开发。标注者需对原始段落进行轻微修改，使其独立（去上下文）。详细信息请参见论文的标注指南。

标注者

Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi

偏差、风险和限制

每个标注实例包含至少一个问题和两个可能的答案，但某些实例可能包含更多问题（及相应答案）。某些实例可能不包含paragraphA_clean、tagDate和tagReason的值。

建议

数据来自维基百科，因此偏向原始内容和来源。由于人工标注涉及一定主观性，我们创建了17页的标注指南文档以澄清重要案例。标注者被明确指示不要受个人情感影响。尽管如此，标注过程中仍可能引入一定主观性。

引用

如果使用该数据集，请引用以下论文：

BibTeX:

bibtex @article{hou2024wikicontradict, title={{WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia}}, author={Hou, Yufang and Pascale, Alessandra and Carnerero-Cano, Javier and Tchrakian, Tigran and Marinescu, Radu and Daly, Elizabeth and Padhi, Inkit and Sattigeri, Prasanna}, journal={arXiv preprint arXiv:2406.13805}, year={2024} }

APA:

Hou, Y., Pascale, A., Carnerero-Cano, J., Tchrakian, T., Marinescu, R., Daly, E., Padhi, I., & Sattigeri, P. (2024). WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia. arXiv preprint arXiv:2406.13805.

搜集汇总

数据集介绍

构建方式

Wikipedia_contradict_benchmark数据集的构建过程基于从维基百科中提取的包含自相矛盾或相互矛盾标签的文章。研究人员通过维基百科维护类别“Wikipedia articles with content issues”收集了约1200篇文章，并筛选出包含不一致信息的文章。随后，人工标注者对文章内容进行验证，确保标签的有效性，并对相关段落进行去语境化处理，使其能够独立表达。最终，数据集包含了253个高质量的人工标注实例，每个实例包含一个问题、一对矛盾的维基百科段落以及两个不同的答案。

特点

该数据集的核心特点在于其专注于评估大语言模型（LLMs）在处理知识冲突时的表现。每个实例均包含一个问题及两个矛盾的答案，这些答案分别基于从维基百科中提取的相互矛盾的段落。数据集还标注了矛盾的类型（显式或隐式）以及矛盾来源是否相同。此外，数据集通过严格的标注流程确保了高质量，标注者需遵循详细的标注指南，以减少主观性对数据的影响。

使用方法

该数据集主要用于评估大语言模型在检索增强生成（RAG）场景下的表现，特别是在处理知识冲突时的能力。研究人员可以通过加载数据集中的CSV文件，使用提供的Python代码进行模型测试。数据集中的每个实例包含问题、矛盾段落、答案及矛盾类型等信息，用户可以根据这些信息设计实验，评估模型在不同类型知识冲突下的表现。此外，数据集还提供了详细的标注指南和示例代码，便于研究人员快速上手。

背景与挑战

背景概述

Wikipedia Contradict Benchmark 数据集由IBM研究院的Yufang Hou、Alessandra Pascale、Javier Carnerero-Cano等研究人员于2024年创建，旨在评估大型语言模型（LLMs）在处理包含真实世界知识冲突的检索增强生成（RAG）任务中的表现。该数据集包含253个高质量的人工标注实例，每个实例包含一个问题、一对从维基百科中提取的相互矛盾的段落以及两个不同的答案。这些实例通过人工标注者识别信息冲突的类型，并生成相关问题以反映知识来源的冲突。该数据集的创建动机源于RAG技术在缓解LLMs幻觉和过时信息问题中的潜力，但其在处理知识冲突方面的表现尚不明确。

当前挑战

Wikipedia Contradict Benchmark 数据集面临的挑战主要包括两个方面。首先，该数据集旨在解决LLMs在处理知识冲突时的表现问题，尤其是当检索到的段落来自同一来源且具有相同的可信度时。这一挑战的核心在于如何评估模型在复杂知识冲突场景下的推理能力和一致性。其次，在数据集的构建过程中，研究人员需要从维基百科中筛选出包含不一致、自相矛盾或相互矛盾标签的文章，并通过人工标注验证这些标签的有效性。这一过程不仅需要处理大量的文本数据，还需确保标注的一致性和准确性，尤其是在处理隐式冲突时，标注者需要具备较高的推理能力。此外，数据集的标注过程不可避免地引入了主观性和噪声，这对数据集的可靠性和泛化能力提出了更高的要求。

常用场景

经典使用场景

Wikipedia_contradict_benchmark数据集主要用于评估大型语言模型（LLMs）在处理包含真实世界知识冲突的检索增强生成（RAG）任务中的表现。该数据集通过提供253个高质量的人工标注实例，涵盖了从维基百科中提取的矛盾段落及其对应的问题和答案，帮助研究者深入理解LLMs在面对知识冲突时的推理能力和回答准确性。

衍生相关工作

该数据集衍生了多项相关研究，特别是在LLMs的检索增强生成（RAG）领域。研究者利用该数据集评估了多种主流LLMs（如Mistral、Mixtral、Llama-2、Llama-3和GPT-4）在处理知识冲突时的表现，并提出了改进模型推理能力的新方法。这些研究进一步推动了LLMs在复杂知识推理任务中的应用和发展。

数据集最近研究