HAMLET

Name: HAMLET
Creator: 韩国科学技术院
Published: 2025-08-27 13:23:22
License: 暂无描述

arXiv2025-08-27 更新2025-11-25 收录

下载链接：

https://github.com/DISL-Lab/HAMLET

下载链接

链接失效反馈

官方服务：

资源简介：

HAMLET是一个全面的自动化评估框架，用于评估大型语言模型在长上下文中的理解能力。该框架将源文本结构化为三层关键事实层次结构，并采用查询式摘要来评估模型在不同层次上对信息的回忆和忠实表示。HAMLET框架包括三个阶段：查询构建、摘要生成和自动摘要评估。该框架使用16部小说作为数据集，每部小说平均长度为101K tokens，涵盖了从全局主题到具体细节的多层次内容。数据集通过GPT-4o生成关键事实树，并通过查询式摘要任务评估LLMs的回忆和忠实性。

提供机构：

韩国科学技术院

创建时间：

2025-08-27

搜集汇总

数据集介绍

构建方式

在长文本理解评估领域，HAMLET通过构建关键事实树实现了多层级信息抽取。该方法将书籍分割为4K词块的序列单元，利用GPT-4o模型生成包含根节点、分支节点和叶节点的三层语义结构。根节点提炼章节核心主题，分支节点解析支撑性叙事线索，叶节点锚定具体事实细节，最终通过自动化验证流程确保关键事实的忠实性、客观性与显著性。

特点

该数据集创新性地建立了分析型与叙事型双重视角的评估框架，覆盖16部现代小说共计2.2万余条关键事实。其核心特征体现在三层级抽象评估体系：根层捕捉宏观主题，分支层追踪叙事脉络，叶层定位细节证据，同时通过查询聚焦式摘要任务揭示语言模型在书长文本中存在的中间位置效应与细粒度理解缺陷。

使用方法

研究者可将完整书籍输入待测语言模型，基于814个结构化工查询生成聚焦摘要。评估阶段采用自动化流水线，通过关键事实对齐算法计算多层级召回率，结合事实核查机制评估忠实度。该流程与专家标注达成90%以上一致性，且将评估成本降低至传统方法的1/25，支持大规模长文本理解基准测试。

背景与挑战

背景概述

HAMLET数据集由韩国科学技术院（KAIST）研究团队于2025年8月发布，旨在构建一个全面自动化的大语言模型长文本理解评估框架。该数据集聚焦于书籍长度文本的多层次理解问题，通过构建根-枝-叶三级关键事实层次结构，系统评估模型在不同抽象层级的信息召回与忠实表达能力。其创新性在于将查询聚焦式摘要任务与层次化关键事实树相结合，填补了现有基准在细粒度长文本理解评估方面的空白，为推进大语言模型在复杂叙事结构中的认知能力研究提供了重要基础设施。

当前挑战

在领域问题层面，HAMLET需解决大语言模型对书籍长度文本的细粒度理解挑战，特别是模型在叶级细节召回中表现出的显著性能衰减，以及由位置效应引发的‘中间迷失’现象。构建过程中面临三重挑战：关键事实树的自动化生成需平衡层次结构的完整性与事实准确性，避免主观推断与信息冗余；查询设计需确保自然语言表达与层次化语义结构的对齐；评估流程的自动化验证需实现与专家标注超过90%的一致性，同时将人工标注成本降低25倍以保障可扩展性。

常用场景

经典使用场景

在长文本理解研究领域，HAMLET数据集通过构建根-枝-叶三级关键事实层次结构，为评估大语言模型在书籍长度上下文中的多级理解能力提供了标准化测试平台。该数据集采用查询聚焦式摘要任务，要求模型基于完整书籍内容生成针对特定查询的摘要，从而系统评估模型在不同抽象层级的信息提取能力。这种评估方式特别适用于分析模型对全局主题与局部细节的平衡把握，为长文本理解研究提供了精细化的测评框架。

衍生相关工作

基于HAMLET的创新架构，研究社区衍生出多个重要研究方向。其关键事实树概念被扩展应用于多模态长文档理解，层次化评估方法启发了对话系统长上下文连贯性研究。数据集揭示的‘中间迷失’现象催生了新型位置感知的注意力机制设计，而自动化评估流程则为后续Benchmark如LongEval等提供了技术蓝本。这些衍生工作共同推动着长文本理解评估向更精细化、自动化方向发展。

数据集最近研究