CLongEval

Name: CLongEval
Creator: 香港中文大学计算机科学与工程系
Published: 2024-03-06 15:43:43
License: 暂无描述

arXiv2024-03-06 更新2024-06-21 收录

下载链接：

https://github.com/zexuanqiu/CLongEval

下载链接

链接失效反馈

官方服务：

资源简介：

CLongEval是一个专为评估中文长上下文大型语言模型设计的综合基准。它包含7个不同的任务，共计7,267个样本，适用于具有1K到100K上下文窗口大小的模型。数据集质量高，包含超过2,000个人工标注的问题-答案对。CLongEval旨在全面评估6个开源和2个领先的商业长上下文语言模型，解决现有评估基准的不足。

CLongEval is a comprehensive benchmark specifically designed for evaluating Chinese long-context large language models. It includes 7 distinct tasks with a total of 7,267 samples, applicable to models with context window sizes ranging from 1K to 100K. The dataset is of high quality, containing over 2,000 manually annotated question-answer pairs. CLongEval aims to comprehensively evaluate 6 open-source and 2 leading commercial long-context language models, addressing the shortcomings of existing evaluation benchmarks.

提供机构：

香港中文大学计算机科学与工程系

创建时间：

2024-03-06

搜集汇总

数据集介绍

构建方式

在长上下文大语言模型评估领域，CLongEval 数据集的构建遵循了系统化的方法论。研究团队首先通过理论分析，确立了信息获取与推理两大核心评估维度，并据此设计了七项具体任务。数据来源多元化，其中长故事问答与长对话记忆任务基于人工标注，确保了高质量与真实性；长故事摘要任务借助 GPT-4 生成并辅以人工校验；其余四项任务则通过对公开数据集进行重构与适配而来。为覆盖不同规模的上下文窗口，数据集被精心划分为小、中、大三个子集，其样本长度分别覆盖 1K-16K、16K-50K 及 50K-100K 的令牌范围，总计包含 7,267 个测试样本，构建过程兼顾了任务的代表性与数据规模的充分性。

使用方法

使用 CLongEval 进行模型评估需遵循其预设的评估框架与流程。评估者需针对七项具体任务，将待测模型在相应的测试样本上进行推理，生成预测结果。随后，依据各任务特定的自动化评估指标进行计算：例如，长故事问答与长对话记忆任务采用 F1 分数衡量答案匹配度；长故事摘要任务使用 ROUGE-L；堆叠新闻标注与错字检测采用平均准确率；关键段落检索采用基于编辑距离的评分；表格查询则采用精确匹配。通过汇总各任务在不同长度子集上的表现，研究者能够全面、细致地刻画模型在长中文上下文下的综合能力与薄弱环节。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，扩展其上下文处理能力成为研究焦点，催生了众多支持中文的长上下文模型。然而，针对这些模型的评估体系尚不完善，缺乏专门的中文基准测试。在此背景下，香港中文大学、哈尔滨工业大学（深圳）及中山大学的研究团队于2024年3月推出了CLongEval基准。该数据集旨在系统评估长上下文大语言模型在中文语境下的核心能力，涵盖信息获取与推理两大维度，包含7项任务共7267个样本，上下文窗口覆盖1K至100K令牌，为相关领域的研究提供了重要的评估工具。

当前挑战

CLongEval所针对的长上下文理解领域面临多重挑战：模型需在极长文本中精准定位关键信息，克服因上下文增长导致的信息稀释与记忆衰减问题；同时，任务设计需兼顾部分上下文与全文理解，对模型的细粒度解析与整体归纳能力提出更高要求。在数据集构建过程中，挑战主要体现在高质量标注数据的获取，例如长篇叙事问答与多轮对话记忆任务均依赖大量人工标注以确保答案的准确性与多样性；此外，为模拟真实应用场景，需精心设计如堆叠新闻分类与错字检测等复杂任务，确保评估既全面又贴近实际需求。

常用场景

经典使用场景

在自然语言处理领域，长文本理解能力的评估一直是研究难点。CLongEval作为首个专门针对中文长上下文大语言模型的评测基准，其经典使用场景在于系统性地评估模型在超长文本输入下的综合性能。该基准通过设计七个涵盖不同信息获取与推理模式的任务，如长故事问答、长对话记忆、长文本摘要等，为研究者提供了标准化的测试框架，用以衡量模型在复杂语境中的信息提取、内容理解和逻辑推理能力。

解决学术问题

CLongEval有效解决了长上下文大语言模型在中文领域缺乏高质量评估基准的学术空白。传统评估方法往往依赖困惑度或合成任务，难以真实反映模型在实际长文本场景中的表现。该数据集通过构建大规模、高质量的人工标注与自动生成样本，并依据信息获取与推理两大核心能力设计评估维度，使得研究者能够精准诊断模型在长上下文处理中的瓶颈，例如信息丢失、位置偏差等关键问题，从而推动模型架构与训练方法的优化。

实际应用

在实际应用层面，CLongEval紧密贴合现实场景中长文本处理的需求。其任务设计模拟了真实用户与AI系统的交互，例如基于多轮长对话的记忆查询、对长篇叙事文本的摘要生成、以及在堆叠文档中的信息分类与检索。这些场景直接对应智能助手、文档分析、知识库问答等实际应用，使得该基准的评估结果能够有效预测模型在部署后的实际效能，为产业界选择与优化长文本模型提供了可靠依据。

数据集最近研究