RepLiQA

github2024-06-19 更新2024-06-20 收录

下载链接：

https://github.com/ServiceNow/repliqa

下载链接

链接失效反馈

官方服务：

资源简介：

RepLiQA是一个评估数据集，包含上下文-问题-答案三元组，上下文涉及虚构的实体，如人物或地点，不真实存在。该数据集旨在测试大型语言模型（LLMs）在提供文档中查找和使用上下文信息的能力。与现有问答数据集不同，RepLiQA的非事实性确保模型性能不受LLMs记忆训练数据中事实的能力影响，可以更自信地测试模型利用提供上下文的能力。数据集涵盖17个主题或文档类别，每个文档附带5个问题-答案对。此外，约20%的问题无法从提供的文档中得到回答，模型应能表明无法获取答案的情况。

RepLiQA is an evaluation dataset comprising context-question-answer triples, where the contexts involve fictional entities such as characters or places that do not exist in reality. This dataset is designed to test the ability of large language models (LLMs) to locate and utilize contextual information within provided documents. Unlike existing question-answering datasets, the non-factual nature of RepLiQA ensures that model performance is not influenced by the LLMs' ability to memorize facts from training data, thereby allowing for a more confident assessment of the models' capability to leverage provided context. The dataset covers 17 topics or document categories, with each document accompanied by 5 question-answer pairs. Additionally, approximately 20% of the questions cannot be answered from the provided documents, requiring the model to indicate when an answer is unattainable.

创建时间：

2024-06-12

原始信息汇总

数据集概述

名称: RepLiQA

类型: 评估数据集

内容: 包含Context-Question-Answer三元组，涉及17个主题的非事实性文档，用于测试大型语言模型(LLMs)在非现实实体文档中寻找和使用上下文信息的能力。

特点:

文档内容涉及虚构的人物、地点和组织。
每个文档附带5个问题-答案对。
约20%的问题无法从文档中得到答案。

支持的任务

问答(Question-Answering)
主题检索(Topic Retrieval)
选择性问答(Selective Question-Answering)

数据字段

document_id (字符串): 唯一标识相关文档。
document_topic (字符串): 17个主题之一。
document_path (字符串): 原始PDF文档的相对路径。
document_extracted (字符串): 从原始PDF文档自动提取的文本。
question_id (字符串): 唯一标识每个文档-问题组合。
question (字符串): 问题。
answer (字符串): 答案，当问题可答时；否则为UNANSWERABLE。
long_answer (字符串): 当answer可答时，从文档中复制粘贴的段落；否则为NA。

数据集更新计划

repliqa_0: 2024年6月12日
repliqa_1: 2024年12月9日
repliqa_2: 2025年2月10日
repliqa_3: 2025年4月14日
repliqa_4: 2025年6月9日

这些分片将逐步发布，以确保模型评估时不会泄露新的数据分区。

搜集汇总

数据集介绍

构建方式

RepLiQA数据集的构建过程始于主题选择，随后生成约1000字的参考文档。这些文档涉及虚构的人物、地点和组织，通过随机名称生成器和匿名化工具确保其与现实世界实体无交叉。自动摘要后，标注者基于摘要提出五个具体且直接的问题，并根据完整文档提供答案。质量控制阶段，所有样本经过审核，初始拒绝率约为5-10%。最后，数据被分割并进一步清理，以去除噪声内容。

特点

RepLiQA数据集的显著特点在于其非事实性，文档内容涉及虚构实体，避免了模型通过记忆训练数据中的事实来回答问题。此外，约20%的问题无法从提供的文档中回答，要求模型能够识别并拒绝回答此类问题。数据集包含17个主题类别，每个文档附带5个问题-答案对，涵盖了从公司政策到区域传说等多个领域。

使用方法

使用RepLiQA数据集进行评估时，建议从最新发布的分割开始，若需更多数据，可逐步添加其他分割。评估时需明确指出使用的分割，并分别报告各分割的结果。数据集支持问答、主题检索和选择性问答等任务，特别适用于测试大型语言模型在处理未见内容时的表现。

背景与挑战

背景概述

RepLiQA数据集由ServiceNow公司主导开发，旨在为大型语言模型（LLMs）提供一个评估平台，专注于测试模型在非事实性文档中提取和利用上下文信息的能力。该数据集创建于2024年，包含17个主题类别，涵盖了从公司政策到区域传说等多种非现实实体的文档。RepLiQA的设计核心在于其非事实性，这使得模型在回答问题时无法依赖于训练数据的记忆，从而更准确地评估模型对提供上下文的利用能力。这一创新对问答系统和自然语言处理领域具有重要影响，为研究者提供了一个更为严格和客观的评估工具。

当前挑战

RepLiQA数据集在构建过程中面临多项挑战。首先，创建非事实性文档需要确保文档内容不与现实世界中的实体重叠，这要求使用随机名称生成器和匿名化工具进行严格检查。其次，数据集设计了约20%的不可回答问题，要求模型能够识别并拒绝回答这些无法从文档中获取答案的问题，这对模型的选择性问答能力提出了高要求。此外，数据集的逐步发布策略旨在防止数据泄露，确保模型在评估时不受训练数据的影响，但这也增加了数据管理和评估的复杂性。最后，数据集中存在的一些不规则内容，如代码块，增加了数据处理的难度和评估的准确性。

常用场景

经典使用场景

RepLiQA数据集的经典使用场景主要集中在大型语言模型（LLMs）的评估与测试。该数据集通过提供非事实性的上下文文档，旨在检验模型在处理和利用给定文档中的信息以回答问题的能力。具体而言，RepLiQA通过包含17个不同主题的虚构文档，每篇文档附带5个问题-答案对，来模拟真实世界中的信息检索和问答任务。这种设计使得模型在无法从文档中找到答案时，能够识别并拒绝回答，从而更全面地评估模型的问答能力。

实际应用

在实际应用中，RepLiQA数据集可广泛用于开发和优化问答系统，特别是在需要高度依赖上下文信息的场景中。例如，在客户服务自动化、智能助手和信息检索系统中，RepLiQA可以帮助训练模型更好地理解和利用非结构化文本数据，从而提高回答的准确性和可靠性。此外，该数据集还可用于教育领域，帮助学生和研究人员评估和改进他们的问答模型，提升其在复杂和多变环境中的表现。

衍生相关工作

RepLiQA数据集的发布催生了一系列相关的经典工作，特别是在问答系统和自然语言处理领域。例如，研究者们利用RepLiQA进行了一系列实验，探索了不同模型在处理非事实性文档时的表现，从而提出了多种改进策略。此外，RepLiQA还激发了对模型拒绝回答能力的深入研究，推动了选择性问答技术的发展。这些工作不仅丰富了问答系统的理论基础，也为实际应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集