five

CLongEval

收藏
arXiv2024-03-06 更新2024-06-21 收录
下载链接:
https://github.com/zexuanqiu/CLongEval
下载链接
链接失效反馈
官方服务:
资源简介:
CLongEval是一个专为评估中文长上下文大型语言模型设计的综合基准。它包含7个不同的任务,共计7,267个样本,适用于具有1K到100K上下文窗口大小的模型。数据集质量高,包含超过2,000个人工标注的问题-答案对。CLongEval旨在全面评估6个开源和2个领先的商业长上下文语言模型,解决现有评估基准的不足。

CLongEval is a comprehensive benchmark specifically designed for evaluating Chinese long-context large language models. It includes 7 distinct tasks with a total of 7,267 samples, applicable to models with context window sizes ranging from 1K to 100K. The dataset is of high quality, containing over 2,000 manually annotated question-answer pairs. CLongEval aims to comprehensively evaluate 6 open-source and 2 leading commercial long-context language models, addressing the shortcomings of existing evaluation benchmarks.
提供机构:
香港中文大学计算机科学与工程系
创建时间:
2024-03-06
搜集汇总
数据集介绍
main_image_url
构建方式
在长上下文大语言模型评估领域,CLongEval 数据集的构建遵循了系统化的方法论。研究团队首先通过理论分析,确立了信息获取与推理两大核心评估维度,并据此设计了七项具体任务。数据来源多元化,其中长故事问答与长对话记忆任务基于人工标注,确保了高质量与真实性;长故事摘要任务借助 GPT-4 生成并辅以人工校验;其余四项任务则通过对公开数据集进行重构与适配而来。为覆盖不同规模的上下文窗口,数据集被精心划分为小、中、大三个子集,其样本长度分别覆盖 1K-16K、16K-50K 及 50K-100K 的令牌范围,总计包含 7,267 个测试样本,构建过程兼顾了任务的代表性与数据规模的充分性。
使用方法
使用 CLongEval 进行模型评估需遵循其预设的评估框架与流程。评估者需针对七项具体任务,将待测模型在相应的测试样本上进行推理,生成预测结果。随后,依据各任务特定的自动化评估指标进行计算:例如,长故事问答与长对话记忆任务采用 F1 分数衡量答案匹配度;长故事摘要任务使用 ROUGE-L;堆叠新闻标注与错字检测采用平均准确率;关键段落检索采用基于编辑距离的评分;表格查询则采用精确匹配。通过汇总各任务在不同长度子集上的表现,研究者能够全面、细致地刻画模型在长中文上下文下的综合能力与薄弱环节。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,扩展其上下文处理能力成为研究焦点,催生了众多支持中文的长上下文模型。然而,针对这些模型的评估体系尚不完善,缺乏专门的中文基准测试。在此背景下,香港中文大学、哈尔滨工业大学(深圳)及中山大学的研究团队于2024年3月推出了CLongEval基准。该数据集旨在系统评估长上下文大语言模型在中文语境下的核心能力,涵盖信息获取与推理两大维度,包含7项任务共7267个样本,上下文窗口覆盖1K至100K令牌,为相关领域的研究提供了重要的评估工具。
当前挑战
CLongEval所针对的长上下文理解领域面临多重挑战:模型需在极长文本中精准定位关键信息,克服因上下文增长导致的信息稀释与记忆衰减问题;同时,任务设计需兼顾部分上下文与全文理解,对模型的细粒度解析与整体归纳能力提出更高要求。在数据集构建过程中,挑战主要体现在高质量标注数据的获取,例如长篇叙事问答与多轮对话记忆任务均依赖大量人工标注以确保答案的准确性与多样性;此外,为模拟真实应用场景,需精心设计如堆叠新闻分类与错字检测等复杂任务,确保评估既全面又贴近实际需求。
常用场景
经典使用场景
在自然语言处理领域,长文本理解能力的评估一直是研究难点。CLongEval作为首个专门针对中文长上下文大语言模型的评测基准,其经典使用场景在于系统性地评估模型在超长文本输入下的综合性能。该基准通过设计七个涵盖不同信息获取与推理模式的任务,如长故事问答、长对话记忆、长文本摘要等,为研究者提供了标准化的测试框架,用以衡量模型在复杂语境中的信息提取、内容理解和逻辑推理能力。
解决学术问题
CLongEval有效解决了长上下文大语言模型在中文领域缺乏高质量评估基准的学术空白。传统评估方法往往依赖困惑度或合成任务,难以真实反映模型在实际长文本场景中的表现。该数据集通过构建大规模、高质量的人工标注与自动生成样本,并依据信息获取与推理两大核心能力设计评估维度,使得研究者能够精准诊断模型在长上下文处理中的瓶颈,例如信息丢失、位置偏差等关键问题,从而推动模型架构与训练方法的优化。
实际应用
在实际应用层面,CLongEval紧密贴合现实场景中长文本处理的需求。其任务设计模拟了真实用户与AI系统的交互,例如基于多轮长对话的记忆查询、对长篇叙事文本的摘要生成、以及在堆叠文档中的信息分类与检索。这些场景直接对应智能助手、文档分析、知识库问答等实际应用,使得该基准的评估结果能够有效预测模型在部署后的实际效能,为产业界选择与优化长文本模型提供了可靠依据。
数据集最近研究
最新研究方向
在自然语言处理领域,随着大语言模型在长上下文处理能力上的突破,评估这些模型在中文语境下的表现成为研究热点。CLongEval基准的推出,标志着针对中文长上下文大语言模型系统化评估的开端,其涵盖信息获取与推理两大核心能力,通过七项任务全面考察模型性能。该数据集不仅填补了中文长上下文评估的空白,还揭示了商业模型与开源模型在长文本处理中的显著差距,尤其在信息提取任务上。相关研究进一步探讨了模型在长上下文中的‘中间迷失’现象及上下文长度对性能的影响,为模型优化和长文本应用提供了重要参考。
相关研究论文
  • 1
    CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models香港中文大学计算机科学与工程系 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作