NovelQA

Name: NovelQA
Creator: 西湖大学工程学院; 浙江大学
Published: 2024-03-19 01:32:32
License: 暂无描述

arXiv2024-03-19 更新2024-06-21 收录

下载链接：

https://github.com/NovelQA/novelqa.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

NovelQA是一个专为评估大型语言模型在处理长文本能力而设计的数据集，由英文小说构建而成，包含2305个问题和答案对。数据集通过精心设计的问题模板和人工标注确保高质量，涵盖多种复杂度和方面，旨在挑战模型的多跳推理、细节理解和超长输入处理能力。NovelQA的应用领域包括自然语言处理和计算文学研究，特别是在评估和提升模型对长篇叙事文本的理解和分析能力方面具有重要价值。

NovelQA is a dataset specifically designed to evaluate the long-text processing capabilities of large language models (LLMs). It is constructed from English novels and contains 2,305 question-answer pairs. The dataset ensures high quality via meticulously crafted question templates and manual annotation, covering diverse complexity levels and multiple dimensions, aiming to challenge models' multi-hop reasoning, fine-grained comprehension, and ultra-long input processing capabilities. The application scenarios of NovelQA span natural language processing (NLP) and computational literary studies, and it holds significant value particularly for evaluating and improving models' ability to understand and analyze long-form narrative texts.

提供机构：

西湖大学工程学院; 浙江大学

创建时间：

2024-03-19

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，长文本理解能力的评估面临现有基准与大型语言模型处理能力不匹配的挑战。NovelQA基准的构建旨在填补这一空白，其核心方法基于英文小说的精心筛选与人工标注。数据集选取了跨越不同时代、体裁和格式的英文小说，确保文本长度普遍超过5万词（约6.7万标记），以提供极长的上下文环境。标注过程由具备英语文学背景的专业人员执行，采用两阶段策略：首先利用预设计的19个模板生成涉及多跳推理和细节信息的问题，随后通过自由形式的问题创作以增强表达的多样性和自然性。每个问题均配有标准答案及来自原文的证据片段，并经过严格的质量控制，最终从原始数据中保留了79.4%的高质量样本，形成了包含2305个问答对的数据集。

特点

NovelQA数据集在长文本问答基准中展现出独特优势，其平均上下文长度超过20万标记，远超现有基准的典型范围，为评估模型在超长文本中的理解能力提供了严峻考验。数据集的多样性体现在问题类型的广泛分布上，涵盖多跳推理、单跳查询及细节导向问题，分别占比35.0%、42.8%和22.2%，并从时间、含义、跨度、设定、关系、人物和情节七个维度对问题进行分类。所有问题、答案及证据均通过人工精心标注与校验，确保了内容的准确性和复杂性，同时通过不发布测试集的标准答案有效防止数据泄露。这些特征使得NovelQA成为推动长上下文理解研究及计算文学研究的重要工具。

使用方法

NovelQA数据集的使用主要围绕评估大型语言模型在长上下文环境中的问答能力展开。研究者在两种设定下进行测试：生成式设定要求模型基于提供的完整小说文本直接生成简短答案；多项选择设定则提供四个选项供模型选择。评估时，需将小说文本、问题及相应提示组合输入模型，对于超过模型最大输入长度的文本，采用从末尾向前截断的策略以保留关键内容。生成式答案的准确性通过GPT-4进行评估，该方法经人工校验显示出高度一致性。数据集支持对模型在不同问题类型（如人物、情节、关系等）和证据位置（绝对标记索引或相对文本位置）上的表现进行细粒度分析，从而深入揭示模型在长文本理解中的优势与局限。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的迅猛发展，对长上下文理解能力的评估成为研究焦点。NovelQA作为一项专为测试大语言模型长文本处理能力而设计的基准数据集，由西湖大学、浙江大学等机构的研究团队于2024年提出。该数据集基于英文小说构建，平均上下文长度超过20万词元，旨在通过复杂叙事结构检验模型对超长文本的深层理解。其核心研究问题聚焦于评估模型在极端长上下文下的信息提取、多跳推理及细节感知能力，为计算文学研究与自然语言处理技术的交叉推进提供了关键工具。

当前挑战

NovelQA所针对的领域问题在于评估大语言模型在超长上下文中的问答性能，其挑战主要体现在模型对多跳推理、细节导向问题以及超过10万词元输入的应对能力显著不足。构建过程中的挑战则涉及高质量人工标注的复杂性，包括招募具备文学背景的标注者、设计覆盖叙事多维度的问答模板，以及确保超过20万词元长度文本的多样性与版权合规性。此外，技术层面上面临着开源模型处理超长输入时的内存限制与推理效率问题，这进一步凸显了当前长上下文建模的技术瓶颈。

常用场景

经典使用场景

在自然语言处理领域，随着大语言模型处理长上下文能力的飞速发展，评估模型对超长文本的理解成为关键挑战。NovelQA作为专为长上下文问答设计的基准数据集，其经典使用场景在于系统评估大语言模型在超过十万令牌的英文小说文本中进行深度理解与推理的能力。该数据集通过人工标注构建，涵盖多跳推理、细节导向及单跳问题等多种类型，为模型在复杂叙事结构中的信息提取与整合提供了标准化测试平台。

衍生相关工作

NovelQA的推出促进了长上下文评估体系的完善，并衍生出系列相关研究。在基准建设方面，其构建方法论启发了针对特定领域的长文本评估数据集开发，如临床文档理解基准LongHealth。在模型优化方向，该数据集揭示的'末端信息衰减'现象推动了位置编码扩展与注意力机制改进的研究。同时，其在计算文学领域的开创性应用，激发了基于长上下文的叙事分析与文学知识挖掘等交叉学科探索，为语言模型在人文计算中的深入应用奠定基础。

数据集最近研究