LongEval

Name: LongEval
Creator: 曼彻斯特大学, 萨里大学, 谢菲尔德大学, 北京大学, 香港理工大学
Published: 2025-02-26 20:46:36
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://github.com/Wusiwei0410/LongEval

下载链接

链接失效反馈

官方服务：

资源简介：

LongEval是一个用于评估大型语言模型长文本生成能力的基准，由曼彻斯特大学等机构创建。该数据集包含166篇高质量的人类撰写的长文本样本，涵盖了arXiv论文、博客和维基百科文章等领域。数据集通过先进的开源LLM Qwen2.5-72BInstruct1处理许可授权的文档来源，并设计了基于计划和直接生成范式的综合评估系统，包括文档级别和部分级别的评价指标。

LongEval is a benchmark dataset for evaluating the long-text generation capabilities of large language models, created by institutions including the University of Manchester. This dataset includes 166 high-quality human-written long-text samples spanning domains such as arXiv papers, blog posts, and Wikipedia articles. It leverages the state-of-the-art open-source LLM Qwen2.5-72B Instruct 1 to process licensed document sources, and designs a comprehensive evaluation system based on both planning and direct generation paradigms, encompassing document-level and segment-level evaluation metrics.

提供机构：

曼彻斯特大学, 萨里大学, 谢菲尔德大学, 北京大学, 香港理工大学

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

LongEval数据集的构建方法基于两种文本生成范式：直接生成和基于计划的生成。首先，研究人员从arXiv.org、wikipedia.org和HuggingFace收集了大量的长文本数据，并使用先进的预训练语言模型Qwen2.5-72B-Instruct对这些文档进行处理。每个文档的各个部分被总结成一个包含4-5句话的内容计划，并由人类标注者进行验证。然后，这些内容计划被用作指导，要求模型生成完整的文章。此外，为了评估模型的长度遵循能力，研究人员还设计了不同长度要求的文本生成任务。

使用方法

LongEval数据集的使用方法如下：1）直接生成方法：将内容计划和长度要求输入到语言模型中，生成完整的文章。2）基于计划的生成方法：将内容计划作为指导，要求模型分部分生成文章，同时要求保持前后部分的语义一致性。3）评估方法：使用LongEval设计的八个评估指标对生成文本进行评估，包括文档级别的领域无关指标和领域特定的部分级别指标，评估生成文本的质量。

背景与挑战

背景概述

随着大型语言模型（LLMs）在自然语言处理（NLP）任务中的广泛应用，其生成长文本内容的能力却鲜为人知且评价不足。LongEval数据集由Siwei Wu等人于2025年提出，旨在通过直接生成和基于计划的生成范式，对LLMs的长文本生成能力进行综合评估。该数据集收集了来自学术论文、博客和维基百科文章等领域的长文本样本，并通过LLMs进行直接生成和基于计划的生成实验。LongEval的提出填补了长文本生成评估的空白，为LLMs在长文本生成任务中的应用提供了重要的参考价值。

当前挑战

LongEval数据集在长文本生成评估方面面临着诸多挑战。首先，LLMs在生成超长文本时，往往难以满足长度要求，生成的文本长度与要求长度之间存在较大差距。其次，LLMs生成的文本内容密度较低，难以提供深入的分析和见解。此外，LLMs在长文本生成过程中，难以保持前后一致性，生成的文本结构松散，缺乏逻辑性。针对这些挑战，LongEval数据集提出了基于计划的生成范式，并通过设计一系列评价指标，对LLMs的长文本生成能力进行综合评估。

常用场景

经典使用场景

在自然语言处理领域，长文本生成一直是研究的热点问题。LongEval 数据集提供了一个全面的分析框架，通过直接生成和基于计划的生成两种范式来评估大型语言模型（LLMs）的长文本生成能力。该数据集的典型使用场景包括：评估 LLMs 在不同长度要求下的性能，研究模型规模与生成能力之间的关系，以及探索 LLMs 在长文本生成中的局限性。此外，LongEval 数据集还可以用于开发新的长文本生成模型和评估方法。

解决学术问题

LongEval 数据集解决了当前 LLMs 在长文本生成中存在的几个关键问题。首先，它揭示了 LLMs 在处理长文本时面临的长度要求和信息密度挑战。其次，LongEval 数据集提供了一个全面的评估框架，可以评估 LLMs 在不同长度要求下的性能，从而帮助研究人员更好地理解 LLMs 的长文本生成能力。最后，该数据集还揭示了 LLMs 在长文本生成中的局限性，例如长度控制能力和高级推理写作能力。

实际应用

LongEval 数据集在实际应用中具有广泛的应用前景。例如，它可以用于开发新的长文本生成模型，以提高 LLMs 在生成长文本时的性能。此外，该数据集还可以用于评估 LLMs 在不同领域中的长文本生成能力，例如学术论文、博客和维基百科文章。这可以帮助研究人员更好地理解 LLMs 在不同领域中的应用潜力，并为 LLMs 的实际应用提供指导。

数据集最近研究