NEOQA

Name: NEOQA
Creator: UKP Lab, TU Darmstadt and Hessian Center for AI (hessian.AI), Amazon AGI
Published: 2025-05-09 18:51:29
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

https://github.com/amazon-science/neoqa

下载链接

链接失效反馈

官方服务：

资源简介：

NEOQA是一个基于虚构时间线的问答数据集，旨在评估大型语言模型（LLM）的证据推理能力。该数据集包含虚构事件的时间线和知识库，以及与事件相关的新闻文章和问答对。NEOQA的设计确保了LLM无法利用其预训练知识来回答问题，从而要求模型只能根据检索到的证据来生成答案。数据集包含多种问题类型和证据配置，用于评估LLM在不同证据场景下的推理能力。

NEOQA is a question answering dataset grounded in fictional timelines, intended to evaluate the evidential reasoning capabilities of large language models (LLMs). This dataset encompasses fictional timelines and knowledge bases for hypothetical events, alongside event-related news articles and question-answer pairs. The design of NEOQA ensures that LLMs cannot exploit their pre-trained knowledge to answer questions, thus mandating that models generate answers exclusively based on retrieved supporting evidence. The dataset features diverse question types and evidence configurations, aiming to assess the reasoning capabilities of LLMs across different evidential scenarios.

提供机构：

UKP Lab, TU Darmstadt and Hessian Center for AI (hessian.AI), Amazon AGI

创建时间：

2025-05-09

原始信息汇总

NeoQA数据集概述

数据集简介

NeoQA (News Events for Out-of-training Question Answering) 是一个用于评估语言模型中基于证据的问答能力的基准数据集。该数据集通过生成虚构的新闻事件和实体时间线，确保问题与预训练数据无重叠，从而专注于评估模型的证据推理能力。

数据集特点

虚构性：所有问题和新闻文章均基于虚构的时间线生成，避免与真实世界事件重叠。
多样性：包含多种证据场景，如缺失或误导性细节的情况。
结构化：提供原始数据和预组装的问答实例，支持不同研究需求。

数据集组成

数据集包含以下子集：

子集名称	类型	描述
`news`	原始数据	生成的新闻文章，可与同一时间线的问题组合成问答实例。
`questions`	原始数据	所有生成的问题，独立于任何证据配对。
`timelines`	原始数据	虚构时间线，包含十个事件及虚构实体的知识库。
`neoqa`	问答实例	主基准集的问答实例，每个问题配对所有可用新闻文章。
`optimal-evidence`	问答实例	每个问题配对最少足够新闻文章的问答实例。
`context-ablation`	问答实例	同一问题在不同无关文章数量下的重复实例，测试抗干扰能力。

获取方式

Hugging Face：通过load_dataset函数加载，需提供解密密钥23456。
原始文件：可从Google Drive下载加密的.jsonl文件，使用decrypt_neoqa.py脚本解密。

实验支持

数据集支持以下实验模式：

tune：在无干扰证据文档上运行和评估模型，用于提示模板选择。
main：在主数据集上运行实验，每个问题配对过去的新闻文章作为证据。
context：评估模型在上下文长度消减子集上的表现。

引用

使用NeoQA时请引用： bibtex @article{glockner2025neoqa, author = {Glockner, Max and Jiang, Xiang and Ribeiro, Leonardo F.R. and Gurevych, Iryna and Dreyer, Markus}, title = {NeoQA: Evidence-based Question Answering with Generated News Events}, journal = {arXiv preprint arXiv:XXXXX.XXXX}, year = {2025}, url = {https://arxiv.org/abs/XXXXX.XXXX}, }

注意事项

数据集采用非衍生许可证发布，禁止以明文形式共享。
实验软件仅供提供出版物背景细节。

搜集汇总

数据集介绍

构建方式

NEOQA数据集的构建采用了一种创新的方法，通过生成虚构的新闻事件时间线和知识库来避免大型语言模型（LLM）利用预训练知识。具体步骤包括：1）生成包含10个连续事件的虚构时间线；2）为每个事件撰写新闻文章；3）创建基于这些事件的问答对。所有内容均由GPT-4生成，确保事件和命名实体均为虚构，避免了与真实世界数据的重叠。此外，通过质量过滤和人工标注确保数据集的准确性和一致性。

特点

NEOQA数据集的特点在于其完全基于虚构事件，避免了预训练知识的干扰，从而提供了一个稳定的评估平台。数据集包含多样化的问答类型和证据配置，能够模拟真实世界中的不同证据场景，包括证据充分、不足或误导性信息的情况。此外，NEOQA通过时间线和知识库的构建，确保了事件的连贯性和逻辑性，同时通过多跳问题和时间跨度问题等复杂问题类型，测试模型在证据推理方面的能力。

使用方法

NEOQA数据集的使用方法主要包括：1）将问题与新闻文章配对，模拟不同的检索条件；2）评估模型在证据充分或不足情况下的回答能力；3）测试模型在遇到虚假前提或不确定细节问题时的表现。数据集支持零样本实验，不适用于微调，以避免模型过拟合到生成问题的特定特征。通过控制实验，可以评估模型在证据推理中的表现，特别是在面对不完美证据时的推理能力。

背景与挑战

背景概述

NEOQA（News Events for Out-of-training Question Answering）是由Max Glockner、Xiang Jiang等研究人员于2025年提出的一个基于生成新闻事件的事实问答基准数据集。该数据集由亚马逊AGI和TU Darmstadt的UKP实验室联合开发，旨在解决大型语言模型（LLMs）在检索增强生成（RAG）评估中的知识过时问题。NEOQA通过构建虚构的新闻事件时间线和知识库，确保模型无法依赖预训练知识，必须基于检索到的证据进行推理回答问题。该数据集已成为评估证据推理能力的可靠平台，对自然语言处理领域的问答系统研究产生了重要影响。

当前挑战

NEOQA面临的挑战主要包括两个方面：1) 领域问题挑战：传统RAG基准随着LLMs知识更新会迅速失效，因为最初需要检索的问题可能被新模型通过预训练知识直接回答，难以区分是基于证据推理还是记忆召回。2) 构建过程挑战：需要生成完全虚构但符合现实逻辑的时间线、新闻文章和问答对，确保与真实世界知识无重叠；同时要设计多样化的证据场景（充分、不足或误导性证据），并控制问题与证据间的微妙不匹配情况。此外，还需解决生成内容的质量控制、命名实体一致性维护，以及评估过程中模型走捷径推理等问题。

常用场景

经典使用场景

NEOQA数据集专为评估检索增强生成（RAG）模型在证据推理任务中的表现而设计。通过构建完全虚构的新闻事件时间线和相关问答对，该数据集确保模型无法依赖预训练知识，必须严格基于提供的证据进行回答。其经典使用场景包括测试模型在不同证据条件下的表现，如证据充分、不足或存在干扰信息时，模型是否能正确回答问题或选择拒绝回答。

解决学术问题

NEOQA解决了评估RAG模型时面临的关键挑战，即预训练知识对评估结果的干扰问题。通过使用虚构事件和实体，该数据集确保了评估的纯粹性，使研究者能够准确衡量模型基于证据的推理能力。此外，数据集设计了多种问题类型，包括可回答问题、错误前提问题和不确定细节问题，为研究模型在复杂证据场景下的表现提供了系统化的测试平台。

衍生相关工作

NEOQA的提出启发了多项相关研究，包括改进模型在证据不足时的拒绝回答能力、增强对矛盾信息的检测机制，以及开发更鲁棒的多跳推理方法。其方法论还被应用于构建其他领域的评估基准，如时间敏感问答和跨文档推理任务，推动了检索增强生成技术的标准化评估框架发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集