LiteraryQA
收藏Hugging Face2025-11-04 更新2025-11-05 收录
下载链接:
https://huggingface.co/datasets/sapienzanlp/LiteraryQA
下载链接
链接失效反馈官方服务:
资源简介:
LiteraryQA是一个关注文学作品的长篇叙事文本问题回答基准数据集。该数据集从NarrativeQA派生而来,对原始书籍文本、众包的问题和答案以及评估指标进行了改进。数据集包含书籍的标题、全文、摘要、问题-答案对和元数据等信息。
创建时间:
2025-10-28
原始信息汇总
LiteraryQA数据集概述
基本信息
- 许可证:CC-BY-SA-4.0
- 任务类别:问答
- 语言:英语
- 标签:叙事、长文档
- 数据集名称:LiteraryQA
- 数据规模:1K<n<10K
数据集描述
LiteraryQA是一个专注于文学作品的长上下文问答基准数据集。该数据集源自NarrativeQA,解决了原始书籍文本、众包问答以及评估指标方面的问题。
数据格式
数据集包含以下字段:
主要字段
- document_id:文档的唯一NarrativeQA标识符
- gutenberg_id:Project Gutenberg书籍标识键
- split:数据集分区(训练集、验证集、测试集)
- title:书籍标题
- text:Project Gutenberg的完整书籍文本
- summary:人工编写或维基百科衍生的书籍摘要
问答字段
- qas:与书籍相关的问题-答案对列表
- question:关于书籍的问题
- answers:一个或多个参考答案
- is_question_modified:问题是否来自原始NarrativeQA数据集
- is_answer_modified:每个答案是否来自原始NarrativeQA数据集
元数据字段
- metadata:书籍的额外上下文信息
- author:作者姓名
- publication_date:出版日期
- genre_tags:分号分隔的流派或文学分类列表
- text_urls:原始完整文本来源URL
- summary_urls:摘要来源URL
使用说明
快速开始
由于版权限制,数据集不直接分发书籍文本,而是通过脚本从Project Gutenberg下载和预处理书籍。需要安装以下Python依赖:
bash pip install "datasets==3.6.0" "chardet==5.2.0" "beautifulsoup4[html5lib]==4.14.2" "ftfy==6.3.1"
加载数据集: python from datasets import load_dataset dataset = load_dataset("sapienzanlp/LiteraryQA")
许可证信息
- 数据和软件使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证
- 基于Project Gutenberg书籍,受Project Gutenberg许可证约束
- 用户需自行检查各书籍在其国家的版权状态
引用信息
该工作发表于EMNLP 2025主会议,如需使用请引用相关论文。
搜集汇总
数据集介绍

构建方式
LiteraryQA数据集的构建源于对NarrativeQA基准的深度优化,聚焦于文学作品的长文档问答任务。该数据集通过精心设计的筛选流程,从Project Gutenberg平台获取原始书籍文本,并采用人工与大型语言模型协同验证的方法,修正了原始问答对中的噪声与错误。构建过程中移除了文档中的无关内容,确保了文本质量与问答样本的可靠性,从而形成了一套高质量的子集。
特点
LiteraryQA数据集以文学叙事为核心,涵盖小说、科幻等多种文学体裁,其问答对均经过严格的质量控制。数据集不仅提供完整的书籍文本与人工撰写的摘要,还标注了问答对的修改状态,便于研究者分析数据演变。此外,每部作品均附带丰富的元数据,包括作者、出版日期与体裁标签,为深入探索叙事理解与长文档建模提供了多维支持。
使用方法
使用LiteraryQA时,需通过HuggingFace的datasets库加载,数据集将自动从Project Gutenberg下载并预处理文本。用户需确保Python环境安装必要依赖,如beautifulsoup4与ftfy,以处理HTML解析与文本修复。数据以标准JSON格式组织,支持按分割加载训练、验证与测试集,每一条目包含书籍全文、摘要及问答对,可直接用于模型训练与评估长上下文问答系统。
背景与挑战
背景概述
在自然语言处理领域,长文档问答任务对机器理解叙事文本的深层语义提出了严峻考验。LiteraryQA数据集由SapienzaNLP实验室的Tommaso Bonomo、Luca Gioffré与Roberto Navigli于2025年共同构建,其核心目标在于改进经典叙事问答基准NarrativeQA中存在的文本质量与评估标准问题。该数据集精选古登堡计划中的文学作品,通过系统化清洗原始文本与优化问答对质量,为长文档叙事理解研究提供了更可靠的评估框架,显著推动了文学计算与认知智能的交叉研究进展。
当前挑战
叙事问答领域长期面临文档噪声干扰与语义连贯性缺失的双重挑战,具体表现为原始文本包含大量非叙事性内容,以及众包生成的问答对存在逻辑偏差。在数据集构建过程中,研究团队需攻克文学作品中复杂时空线索的提取难题,同时通过人工与大语言模型协同验证,精准识别并修正存在矛盾的问答样本。此外,版权地域性差异导致的数据分发限制,亦对研究可复现性构成了实质性障碍。
常用场景
经典使用场景
在叙事文本理解领域,LiteraryQA作为长文档问答基准,主要应用于评估模型对文学作品的深度语义解析能力。该数据集通过精心筛选的问答对和净化后的原始文本,为研究者提供了测试机器理解复杂叙事结构、人物关系演变及情节发展逻辑的标准平台。其典型使用场景包括训练和验证大语言模型在长上下文环境下的信息抽取与推理性能,尤其在处理多线索交织的文学篇章时展现出独特价值。
解决学术问题
该数据集有效解决了叙事问答领域中文本质量参差、标注噪声干扰及评估指标失准三大核心问题。通过构建经过人工与大语言模型双重验证的数据管道,不仅修正了原始NarrativeQA中的低质量问答样本,还剔除了源文档中的无关文本片段。这一改进使得学术界能够更精准地衡量模型对长文档叙事逻辑的把握程度,为构建可靠的文学文本智能理解评估体系奠定基础。
衍生相关工作
基于LiteraryQA数据集衍生出多项重要研究,特别是在长文档理解评估方法论领域。相关研究深入探讨了n-gram类自动指标与人类评判的相关性缺陷,并开创性地验证了轻量级开源模型作为评判者的可行性。这些工作不仅推动了基于大语言模型的自动评估体系发展,还催生了针对文学叙事特征的新型评测框架,为后续研究提供了可复现的基准范式与评估工具链。
以上内容由遇见数据集搜集并总结生成



