five

NarrativeXL

收藏
arXiv2023-12-08 更新2024-06-21 收录
下载链接:
https://github.com/r-seny/NarrativeXL
下载链接
链接失效反馈
官方服务:
资源简介:
NarrativeXL是一个大规模的阅读理解数据集,包含近百万个问题,平均文档长度超过50,000字,适用于长期记忆模型的训练和评估。该数据集利用GPT-3.5从Project Gutenberg的1500本手工精选小说中总结每个场景,每本书约产生150个场景级总结。随后,基于这些总结创建了多种阅读理解问题,包括三种类型的多选场景识别问题以及自由形式的叙事重建问题。数据集的关键特点是大多数问题具有已知的“保留需求”,指示回答这些问题所需的长期记忆程度,有助于评估长期记忆性能。此外,数据集还提供了代码,以便以最小的劳动力成本进一步扩展数据集。该数据集适用于开发和评估需要处理极长上下文的语言模型,旨在解决现有模型在处理长文本时性能下降的问题。
提供机构:
圣菲研究所
创建时间:
2023-05-23
搜集汇总
背景与挑战
背景概述
NarrativeXL是一个大规模、超长上下文的阅读理解数据集,包含990,595个问题,平均文档长度超过50,000词,用于评估长期记忆模型的性能。数据集中的问题标注了“记忆需求”指标,可帮助诊断模型记忆能力,且问题对现代语言模型具有挑战性。数据通过自动化流程生成,支持扩展和复现研究结果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作