CL-bench

github2026-02-08 更新2026-02-06 收录

下载链接：

https://github.com/Tencent-Hunyuan/CL-bench

下载链接

链接失效反馈

官方服务：

资源简介：

CL-bench是一个用于上下文学习的基准测试，旨在评估语言模型从提供的上下文中学习新知识的能力。它包含多样化的任务类别，如领域知识推理、规则系统应用、程序任务执行和实证发现与模拟。数据集包含1,899个任务，每个任务都包含系统提示、任务、上下文和评估标准，所有内容均由领域专家精心制作和标注。

CL-bench is a benchmark for in-context learning, designed to evaluate the ability of language models to learn new knowledge from the provided context. It encompasses diverse task categories such as domain knowledge reasoning, rule system application, programming task execution, and empirical discovery and simulation. The dataset consists of 1,899 tasks, each containing system prompts, task content, contexts, and evaluation criteria, all of which are meticulously crafted and annotated by domain experts.

创建时间：

2026-01-23

原始信息汇总

CL-bench 数据集概述

数据集基本信息

数据集名称：CL-bench: A Benchmark for Context Learning
发布机构：Tencent-Hunyuan
数据集目标：评估语言模型从给定上下文中学习新知识的能力，使其更智能并推进其在现实场景中的部署。
核心挑战：解决基准中的任务要求模型从提供的上下文中学习新知识，这些知识在预训练中是缺失的，仅依赖预训练静态知识的模型几乎无法解决。

关键特性

真实性与高质量：每个上下文、任务和评估标准均由领域专家精心设计，并经过多轮严格的质量审查。
无污染：上下文包含预训练中不存在的新知识，通过虚构创作、修改现有知识或整合小众新兴专业知识三种方法构建，确保模型必须从上下文中学习。
高难度：每个上下文最多包含12个任务（平均3.8个）；标注每个上下文平均需要20小时的专家工时；任务间存在依赖关系的多轮交互。
严格可验证：每个上下文平均有63.2个评估标准，由专家标注，用于从多个维度评估模型解决方案是否完全解决了任务。
自包含：所有必需知识均在上下文中提供，无需外部检索。

数据集内容与结构

样本数量：1,899个任务。
数据格式：JSONL（每行一个JSON对象）。
数据来源：https://huggingface.co/datasets/tencent/CL-bench
数据结构：每个样本包含以下字段：
- messages：遵循OpenAI聊天格式，包含系统提示、用户任务、助手回复等。
- rubrics：用于对模型解决方案进行评分的评估标准列表。
- metadata：包含任务ID、上下文类别、子类别等信息的元数据。

任务类别

上下文类别：包含四大类——领域知识推理、规则系统应用、程序性任务执行、经验发现与模拟。
子类别：共18个子类别。

评估信息

评估方式：基于语言模型的验证器，使用专家标注的任务级评估标准进行自动评估。
评估指标：采用二元评分系统。
- 得分1：模型解决方案满足所有评估标准要求。
- 得分0：模型解决方案未达到标准，或模型输出为空。
评分公式：解决率 = (得分为1的数量) / (总样本数)。
性能表现：最佳性能模型（GPT-5.1）的解决率仅为23.7%，所有评估模型的平均解决率为17.2%。

相关资源

排行榜：https://www.clbench.com
论文：https://arxiv.org/abs/2602.03587
博客：https://hy.tencent.com/research/100025?langVersion=en
引用信息：提供BibTeX引用格式。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估语言模型的上下文学习能力至关重要。CL-bench的构建过程体现了严谨的学术追求，其数据由领域专家精心设计，通过虚构创作、修改现有知识或引入新兴专业知识三种方法，确保上下文包含预训练中未出现的新知识。每个实例均包含系统提示、任务、必要知识上下文及评估准则，并经过多轮严格质量审核，平均每个上下文的标注耗时约20小时，最终形成包含1,899个任务的JSONL格式数据集。

特点

该数据集以高质量与真实性著称，其上下文、任务和评估准则均由专家精心打造，有效避免了数据污染问题。CL-bench涵盖领域知识推理、规则系统应用、程序性任务执行及经验发现与模拟四大类别，共18个子类，每个上下文平均关联3.8个任务，并配备多达63.2条评估准则，形成多轮交互的依赖关系，极具挑战性。即便顶尖模型在此基准上的解决率也仅为23.7%，充分凸显其评估难度与学术价值。

使用方法

研究人员可通过Hugging Face平台获取数据集，并利用提供的Python脚本进行高效评估。使用前需安装OpenAI等依赖库，通过infer.py脚本调用各类API兼容模型进行推理，支持并发处理以提升效率。随后，eval.py脚本借助指定的评判模型，依据专家标注的详细准则对模型输出进行自动化评估，采用二元评分体系计算解决率，确保评估过程既严谨又可复现，为推进上下文学习研究提供可靠工具。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LMs）的预训练知识虽广泛，却常与现实任务中动态、新兴的知识需求脱节。CL-bench由腾讯混元团队于2026年推出，旨在评估模型从上下文学习新知识的能力，涵盖领域知识推理、规则系统应用等四类复杂任务。该数据集通过专家精心构建1899个任务，强调模型需摆脱对静态预训练知识的依赖，从而推动语言模型向更智能、适应实际场景的方向演进，对自然语言处理与人工智能部署具有重要影响。

当前挑战

CL-bench核心挑战在于解决模型上下文学习能力的评估难题，即如何让模型有效吸收并应用上下文中的新知识，而非依赖预训练记忆。构建过程中，专家需创造虚构、修改或整合小众知识以确保数据无污染，每个上下文平均耗时20小时，并设计多轮交互与任务依赖以增强真实性。此外，数据集中每个任务平均配备63.2条评估准则，要求模型输出全面满足多维标准，这增加了自动评估的复杂度，使得当前最优模型仅达到23.7%的解决率。

常用场景

经典使用场景

在自然语言处理领域，上下文学习能力是衡量大型语言模型智能水平的核心指标。CL-bench数据集通过提供包含虚构创造、现有知识修改或新兴专业知识的上下文，构建了一个评估模型从给定上下文中学习新知识能力的经典场景。模型需在缺乏预训练知识的情况下，理解并应用上下文中的领域知识、规则系统或复杂流程，以解决多样化任务，从而模拟现实世界中模型面对未知信息时的学习与推理过程。

衍生相关工作

围绕CL-bench数据集，已衍生出一系列聚焦上下文学习机制的研究工作。例如，基于其构建的自动评估框架被广泛应用于比较不同模型在新知识吸收效率上的差异；同时，该数据集启发了对模型推理链优化、多轮交互依赖处理等技术的深入探索。相关研究进一步拓展至跨模态上下文学习、低资源环境下的小样本适应等方向，为构建更具泛化性和鲁棒性的下一代语言模型奠定了坚实基础。

数据集最近研究