LFED

Name: LFED
Creator: 天津大学智能与计算学部
Published: 2024-05-16 23:02:24
License: 暂无描述

arXiv2024-05-16 更新2024-06-21 收录

下载链接：

https://github.com/tjunlp-lab/LFED.git

下载链接

链接失效反馈

官方服务：

资源简介：

LFED是一个专为评估大型语言模型在长篇文学小说理解和推理能力上的数据集。该数据集由天津大学智能与计算学部创建，包含95部中文原著或翻译的文学小说，涵盖多个世纪的广泛主题。数据集通过众包方式构建，严格控制质量，最终形成1304个问题，涉及8种不同的问题类型，旨在全面评估语言模型在事实理解、逻辑推理、上下文理解、常识推理和价值判断等方面的能力。LFED的应用领域主要集中在评估和提升大型语言模型在文学领域的理解和推理能力，以解决现有数据集无法充分评估大型模型的问题。

LFED is a specialized dataset developed for evaluating the long-form literary fiction comprehension and reasoning capabilities of large language models (LLMs). Created by the Faculty of Intelligence and Computing, Tianjin University, the dataset includes 95 Chinese original or translated literary novels covering a wide range of themes spanning multiple centuries. Constructed through crowdsourcing with rigorous quality control, it ultimately consists of 1304 questions across 8 distinct question types, aiming to comprehensively assess language models' abilities in factual understanding, logical reasoning, contextual comprehension, commonsense reasoning, value judgment, and other relevant aspects. The primary application fields of LFED focus on evaluating and enhancing the literary comprehension and reasoning capabilities of large language models, so as to address the limitation that existing datasets cannot adequately evaluate large-scale models.

提供机构：

天津大学智能与计算学部

创建时间：

2024-05-16

搜集汇总

数据集介绍

构建方式

在文学理解与推理评估领域，LFED数据集的构建体现了严谨的学术规范。该数据集源自95部中文原创或译介的文学小说，涵盖多个世纪与广泛主题。构建过程采用众包标注与专家审核相结合的双重质量控制机制：首先由具备文学背景的标注者依据精心设计的八类问题分类体系（包括人物关系、情节分析、反事实推理等）创作问题与选项；随后每道题目均经过两位专家独立审核，确保语法准确性、分类合理性与答案唯一性。最终通过去重与一致性校验，形成包含1304道高质量多选题的评估基准。

特点

LFED数据集的核心特点在于其深度结合文学叙事复杂性与大模型评估需求。数据集所选小说长度普遍超过10万汉字，其中六部甚至超过百万字，远超多数大语言模型的上下文窗口限制，从而有效检验模型对长文档的理解与推理能力。问题设计覆盖文学分析的多个维度：不仅考察事实性知识（如人物特征、背景主题），更侧重深层推理能力（如事件关联、反事实推理）。数据分布呈现显著多样性：小说类型涵盖爱情、历史、科幻等八种题材，出版时间横跨数百年，且69.47%为中文原生作品，为评估模型的文化语境理解提供了丰富素材。

使用方法

该数据集主要服务于大语言模型在文学理解领域的系统性评估。使用时通常采用零样本或少样本提示学习范式：研究者可将小说名称、问题文本及四个选项组合为标准化输入，通过短提示（如“根据问题选择答案”）或长提示（包含任务说明与格式要求）引导模型输出选项标识。评估过程需设计后处理脚本以解析模型生成内容，确保答案提取的准确性。实验表明，数据集能有效揭示模型在长文本推理、跨时代语言习惯适应、不同文学题材理解等方面的能力差异，为模型优化提供细粒度诊断依据。

背景与挑战

背景概述

随着大语言模型（LLM）的迅猛发展，对其在多样化维度上的性能进行全面评估的需求日益凸显。在此背景下，天津大学与华为诺亚方舟实验室的研究团队于2024年联合推出了LFED（Literary Fiction Evaluation Dataset），即文学小说评估数据集。该数据集旨在系统评估大语言模型在长篇文学小说理解与推理方面的能力，核心研究问题聚焦于模型对复杂叙事、人物关系、情节逻辑及主题价值的深层认知。LFED精心收录了95部中文原创或译介的文学作品，涵盖多个世纪与广泛主题，并依据一套包含8类问题的分类学构建了1304道多选题目。作为首个专注于中文长篇文学小说评估的基准，LFED为衡量大语言模型的事实理解、逻辑推理、语境把握及价值判断等综合能力提供了重要工具，对推动自然语言处理在复杂文本理解领域的发展具有显著影响力。

当前挑战

LFED数据集所应对的领域挑战在于评估大语言模型对超越其上下文窗口长度的复杂文学叙事进行深度理解与推理的能力，这涉及对长文档中隐含的人物关系、情节因果、反事实推理及文学鉴赏等高级认知任务的考察。在构建过程中，研究团队面临多重具体挑战：首先，需从海量文学作品中筛选出兼具文学价值、主题多样性与长度挑战性的小说，并确保其符合当代价值观以避免偏见；其次，设计一套系统化的问题分类学以覆盖小说理解的核心维度，并在众包标注中维持分类一致性，尤其在角色行为、事件关系与情节分析等易混淆类别上需进行精细界定与复核；此外，标注过程需依赖具备深厚文学素养的标注者与专家进行多轮审核，以保障问题与答案的准确性、唯一性及与原文的忠实对应，同时处理因不同标注者理解差异导致的冗余或分类争议，最终通过严格流程产出高质量评估基准。

常用场景

经典使用场景

在自然语言处理领域，LFED数据集被广泛用于评估大语言模型在长文本文学小说理解与推理方面的能力。该数据集通过涵盖八种问题类型，如人物关系、情节分析和反事实推理等，为研究者提供了一个标准化的测试平台，以检验模型在复杂叙事结构中的深层语义把握和逻辑推断表现。

衍生相关工作

LFED数据集衍生了一系列相关研究工作，包括针对中文大语言模型的综合性评估框架（如M3KE、LHMKE），以及专注于特定推理能力（如反事实推理、角色知识记忆）的专项评测。这些工作进一步拓展了文学理解评估的边界，推动了多维度、跨领域的大模型能力测评体系的发展。

数据集最近研究