WikiContradict

Name: WikiContradict
Creator: IBM研究欧洲-爱尔兰
Published: 2024-06-20 04:13:42
License: 暂无描述

arXiv2024-06-20 更新2024-06-24 收录

下载链接：

https://ibm.biz/wikicontradict

下载链接

链接失效反馈

官方服务：

资源简介：

WikiContradict是由IBM研究欧洲-爱尔兰创建的一个高质量数据集，包含253个人工标注的实例，专门设计来评估大型语言模型（LLMs）在处理来自维基百科的真实世界知识冲突时的表现。数据集内容涵盖多种类型的知识冲突，通过严格的标注流程从维基百科中提取并验证。WikiContradict的应用领域主要集中在自然语言处理中，旨在解决LLMs在面对知识冲突时的准确性和可靠性问题，特别是在处理隐含冲突和需要推理的情境中。

WikiContradict is a high-quality dataset created by IBM Research Europe - Ireland. It comprises 253 human-annotated instances, which are specifically designed to evaluate the performance of Large Language Models (LLMs) when they face real-world knowledge conflicts sourced from Wikipedia. The dataset covers diverse types of knowledge conflicts, which are extracted and verified from Wikipedia through a rigorous annotation procedure. Its core application area falls within the field of natural language processing (NLP), where it aims to resolve the accuracy and reliability issues of LLMs when encountering knowledge conflicts, especially in scenarios involving implicit conflicts and reasoning-demanding contexts.

提供机构：

IBM研究欧洲-爱尔兰

创建时间：

2024-06-20

搜集汇总

数据集介绍

构建方式

WikiContradict数据集的构建主要基于维基百科中的不一致性标签，包括'inconsistent'、'self-contradictory'和'contradict-other'。研究者从维基百科维护类别中收集了约1200篇文章，并利用Label Studio平台进行人工标注。标注过程中，标注者首先验证标签的有效性，然后提取并修改两个相互矛盾的段落，提供解释性文本，并根据预定义的分类法对矛盾类型进行分类。最后，标注者需要根据这些段落创建至少一个问题，以突出矛盾点。通过这种方式，WikiContradict数据集共包含253个高质量的人工标注实例，涵盖了不同的现实世界知识冲突类型。

使用方法

使用WikiContradict数据集时，研究者可以通过不同的提示模板来评估LLMs在不同QA场景下的性能。这些提示模板包括基于内部知识回答问题、基于单个检索段落回答问题，以及基于两个相互矛盾段落回答问题。此外，研究者还可以使用WikiContradictEval自动评估方法来评估LLMs的性能。该方法利用少量样本的上下文学习，教授LLMs如何判断模型响应。通过这种方式，研究者可以更有效地评估LLMs在处理现实世界知识冲突方面的能力。

背景与挑战

背景概述

随着大型语言模型（LLMs）在自然语言处理（NLP）领域的迅速发展，检索增强生成（RAG）技术应运而生，旨在缓解LLMs在信息时效性和准确性方面的不足。然而，LLMs在面对从不同来源检索到的信息中出现的知识冲突时，其处理能力尚不明确。为了评估LLMs在处理真实世界知识冲突方面的表现，IBM Research Europe - Ireland 和 IBM Research, Thomas J. Watson Research Center 等机构的研究人员共同创建了 WikiContradict 数据集。该数据集由 253 个高质量、人工标注的实例组成，旨在评估 LLMs 在处理来自维基百科中存在真实世界知识冲突的检索段落时的性能。通过使用 WikiContradict，研究人员可以深入了解 LLMs 在处理知识冲突时的行为和局限性，并为未来 LLMs 的改进提供参考。

当前挑战

WikiContradict 数据集带来的挑战主要包括：1) LLMs 在处理来自维基百科中存在的真实世界知识冲突时的表现。2) 在构建过程中，如何确保数据集的准确性和可靠性。3) 如何设计有效的评估方法，以客观地衡量 LLMs 在处理知识冲突时的性能。4) 如何处理不同语言和文化背景下的知识冲突问题，确保数据集的普适性。5) 如何进一步扩展数据集，以涵盖更多类型的知识冲突，从而更好地评估 LLMs 的处理能力。

常用场景

经典使用场景

WikiContradict数据集主要用于评估大型语言模型（LLMs）在面对维基百科中出现的现实世界知识冲突时的性能。该数据集包含253个高质量、人工标注的实例，这些实例设计用于评估LLMs在检索到的包含真实世界知识冲突的段落中的表现。具体来说，WikiContradict可以用于评估LLMs在处理来自同一来源且具有相同可信度的检索段落中的知识冲突的能力。

解决学术问题

WikiContradict数据集解决了LLMs在处理检索到的包含现实世界知识冲突的段落时的性能评估问题。传统的LLMs在处理过时信息和幻觉方面存在局限性，而检索增强生成（RAG）技术则可以结合LLMs的优势和外部来源的更新信息。然而，LLMs在面对不同来源的知识冲突时，特别是当这些段落来自同一来源且具有相同可信度时，其表现仍然不清楚。WikiContradict通过提供一个基准数据集，使得研究人员能够评估LLMs在处理现实世界知识冲突方面的性能，并深入了解其行为和局限性。

实际应用

WikiContradict数据集在实际应用中可以用于改进LLMs在面对检索到的包含现实世界知识冲突的段落时的性能。通过对LLMs进行评估和微调，可以使其更好地处理现实世界中的知识冲突，从而提高LLMs在问答、信息检索等任务中的准确性和可靠性。此外，WikiContradict还可以用于开发自动评估LLMs性能的方法，从而减少对人工评估的依赖，提高评估效率。

数据集最近研究