CLIFT

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/longarmd/CLIFT

下载链接

链接失效反馈

官方服务：

资源简介：

CLIFT（Contextual Learning across Inference, Format, and Transfer）是一个包含5,160个合成实例的结构化基准测试数据集，旨在测试模型是否能够从上下文中学习潜在规则，并在格式转换、任务家族和探测类型（如前向、逆向、OOD、规划等）下应用这些规则。数据集设计采用全因子设计，覆盖任务×格式×应用×难度四个维度，每个单元有10个独立同分布样本。数据集包含四个任务家族（功能映射、算法、空间、动态结构）共10个典型任务，以及四种呈现格式（演示、自然语言、跟踪、正式规范）。每个实例包含提示、目标、任务、格式、应用、难度等字段，以及用于研究和评分管道的潜在结构信息。数据集适用于文本生成任务，特别是上下文学习、迁移学习和结构化输出的评估。

创建时间：

2026-04-09

原始信息汇总

CLIFT 数据集概述

数据集基本信息

数据集名称：CLIFT (Contextual Learning across Inference, Format, and Transfer)
主要用途：用于压力测试模型是否能从上下文中学习潜在规则，侧重于评估上下文学习能力。
语言：英文提示和指令。
模态：文本（补全式 prompt → 字符串 target）。
实例数量：5,160 个合成实例。
设计：在 任务 × 格式 × 应用 × 难度 上进行全因子设计，每个单元有 10 个独立同分布样本。
随机种子：42。

核心评估维度

CLIFT 通过三个受控变化轴来评估模型的上下文学习能力：

推理：模型必须学习什么（查找规则、算法、空间变换、小型动态系统等）。
格式：知识如何呈现（演示、自然语言、执行轨迹、形式化规范）。
迁移/应用：模型必须如何使用它（前向预测、逆向推理、阐述、分布外探测、规划、结构探测——任务相关的子集）。

任务家族与构成

实例分为 4 个家族，涵盖 10 个规范任务：

家族	任务
功能映射	`lookup_table`, `arithmetic_rule`, `conditional_rule`
算法	`insertion_sort`, `max_subarray`, `binary_search`, `naive_string_matcher`
空间	`spatial_translation`
动态结构	`affine_dynamics_2d`, `register_machine_2d`

格式：所有任务在适用时使用以下集合：demonstration, natural_language, trace, formal_spec。
难度：整数级别 1, 2, 3（结构复杂度随级别增加）。
应用：因任务而异（例如，仿射/寄存器任务使用专门的 OOD 后缀探测）。

数据结构与字段

数据格式：JSONL（每行一个 JSON 对象）。
完整性检查：伴随的 manifest.json 文件记录了生成器参数、预期行数和用于完整性检查的 SHA-256 哈希值。

每个实例的字段

字段	类型	描述
`instance_id`	int	快照中的稳定索引
`task`	string	10个规范任务名称之一
`format`	string	呈现格式
`application`	string	探测/应用轴
`difficulty`	int	难度级别（1-3）
`prompt`	string	模型输入（补全式）
`target`	string	参考答案（精确匹配是主要检查方式）
`latent_structure`	object	用于分析和工具化的黄金结构（不展示给模型）
`instruct`	bool	导出时是否使用了指令/聊天风格
`messages`	array (可选)	启用导出时的 OpenAI 风格聊天轮次
`metadata`	object (可选)	存在时的额外字段

重要说明：latent_structure 字段特意包含用于研究和评分管道。应将其视为用于训练的保留监督信息——除非实验设计明确允许，否则不应在生成时以其为条件。

加载方式

python from datasets import load_dataset ds = load_dataset("longarmd/CLIFT", split="train")

如果 Hugging Face Hub 加载器配置有误，可使用 Files 选项卡中的 JSONL 文件，并使用 json.loads 逐行流式读取，其模式与上表匹配。

相关资源

代码仓库：https://github.com/LongarMD/CLIFT
数据集页面：https://huggingface.co/datasets/longarmd/CLIFT

搜集汇总

数据集介绍

构建方式

在人工智能领域，对模型上下文学习能力的评估日益受到重视。CLIFT数据集通过全因子实验设计构建，覆盖推理、格式与应用三个核心维度，每个维度下细分为多个子类别，如任务类型涵盖函数映射、算法执行、空间变换及动态结构等十种经典任务。数据生成过程中，每个实验单元均独立抽取十组样本，确保统计上的独立同分布特性，最终形成包含5160条合成实例的标准化测试集。这种系统化构建方式为模型能力评估提供了结构化的分析框架。

特点

该数据集的核心特征在于其多维度的评估体系，不仅考察模型对潜在规则的推断能力，还通过格式变换与应用迁移来测试模型的泛化性能。实例设计融合了演示、自然语言描述、执行轨迹与形式化规范等多种知识呈现方式，并设置了三个难度等级以对应不同的结构复杂度。每个实例均包含完整的元数据标注，如潜在结构对象与任务应用标签，为深入研究模型的行为机制提供了丰富的分析维度。

使用方法

研究人员可通过Hugging Face平台直接加载数据集，利用标准接口获取包含提示文本、目标答案及多维标注的实例数据。评估时需关注模型在给定提示下生成答案的精确匹配度，同时可借助潜在结构字段进行深入的错误分析。数据集支持以JSONL格式流式读取，并附有完整性校验机制，确保实验的可复现性与数据一致性。

背景与挑战

背景概述

CLIFT数据集由LongarMD团队于2024年构建，旨在系统评估大型语言模型在上下文学习中的核心能力。该数据集聚焦于模型从提示中推断潜在规则的能力，通过合成实例覆盖推理、格式与迁移三个维度，为诊断模型在结构化任务上的表现提供了精细化基准。其设计基于全因子实验，涵盖函数映射、算法、空间与动态结构四大任务家族，共计5,160个实例，推动了语言模型评估从单一技能测试向多维能力分析的演进。

当前挑战

CLIFT数据集所解决的领域挑战在于，传统评估往往局限于固定格式或单次技能测试，难以捕捉模型从上下文推断隐藏规则并适应可控变体的能力。构建过程中的挑战包括：设计覆盖推理、格式与应用三个轴线的密集评估矩阵，确保任务家族与格式之间的逻辑一致性；生成合成实例时需平衡难度层级与结构复杂性，同时维护数据完整性，例如通过SHA-256校验防止数据篡改。

常用场景

经典使用场景

在自然语言处理领域，评估大型语言模型的上下文学习能力是核心挑战之一。CLIFT数据集通过精心设计的合成实例，为模型提供了从提示中推断潜在规则并应用于多样化任务的标准化测试环境。其经典使用场景聚焦于模型在推理、格式和迁移三个维度上的表现评估，例如要求模型根据演示示例或形式化规范学习隐藏的算术规则或空间变换，并在不同难度级别下完成预测或逆向推理任务。这种结构化基准使得研究者能够系统性地诊断模型在上下文学习中的泛化与适应能力。

解决学术问题

CLIFT数据集主要解决了大型语言模型在上下文学习中规则归纳与迁移的学术研究问题。传统评估往往局限于固定格式或单一技能，而CLIFT通过全因子设计覆盖任务、格式和应用的多重组合，揭示了模型从有限上下文中学习潜在结构的能力边界。其意义在于提供了细粒度的诊断工具，帮助研究者识别模型在算法性任务、动态系统或空间推理中的薄弱环节，从而推动更鲁棒和可解释的上下文学习方法的开发，对理解模型的内在工作机制具有重要影响。

衍生相关工作

围绕CLIFT数据集，已衍生出多项经典研究工作，主要集中在上下文学习的评估框架扩展与模型能力分析领域。例如，研究者利用其结构化基准进行训练策略的消融实验，探索模型在算法性任务如插入排序或二分查找中的泛化性能；同时，基于CLIFT的潜在结构信息，开发了新型评分管道以量化模型规则归纳的精确度。这些工作不仅深化了对大型语言模型上下文学习机制的理论理解，还促进了更高效评估工具的开发，为后续基准如BIG-bench或HELM提供了补充视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集