SteerEval

Name: SteerEval
Creator: ZJUNLP
Published: 2026-03-04 15:34:03
License: 暂无描述

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/zjunlp/SteerEval

下载链接

链接失效反馈

官方服务：

资源简介：

SteerEval 是一个层次化基准测试数据集，旨在系统评估大型语言模型（LLMs）在行为领域和粒度级别上的可控性。该数据集将控制目标分为四个行为领域：语言特征、情感、个性和推理模式。每个领域又按层次结构分为三个规范级别：计算级别（表达什么）、算法级别（如何表达）和实施级别（如何实例化）。每个级别包含8个不同的概念，每个概念提供70个训练样本、30个测试样本和5个验证样本。每个样本由一个问题和匹配的答案及不匹配的答案组成，总计包含10,080个样本。数据集文件按行为领域组织，每个领域包含训练、验证和测试分割文件，以及所有控制目标概念的列表文件。样本字段包括行为领域、概念ID、概念名称、概念描述、问题ID、问题文本、匹配答案和不匹配答案。该数据集适用于评估和提升大型语言模型在多样化行为控制任务中的表现。

提供机构：

ZJUNLP

创建时间：

2026-03-01

原始信息汇总

SteerEval 数据集概述

数据集基本信息

数据集名称: SteerEval
发布者/机构: zjunlp
许可证: CC BY-SA 4.0
论文地址: https://arxiv.org/abs/2603.02578
代码仓库: https://github.com/zjunlp/EasyEdit/blob/main/examples/SteerEval.md

数据集简介

SteerEval 是一个分层基准测试，旨在系统评估大语言模型（LLMs）跨行为领域和粒度级别的可控性。

核心设计

该基准测试沿两个互补的轴组织行为控制：

行为领域：控制目标分为四个行为领域。
- 语言特征
- 情感
- 个性
- 推理模式
规范级别：每个领域在层次上分为三个规范级别，每个级别包含 8 个不同的概念。
- 级别 1：计算级别（表达什么）
- 级别 2：算法级别（如何表达）
- 级别 3：实现级别（如何实例化）

数据规模与结构

每个概念提供 70 个训练样本、30 个测试样本和 5 个验证样本。
每个样本由一个问题、一个匹配答案和一个非匹配答案组成。
核心基准测试总共包含 10,080 个样本。

数据目录结构

SteerEval ├── language_features/ │ ├── concepts_all.json │ ├── train.json │ ├── valid.json │ └── test.json ├── sentiment/ │ ├── concepts_all.json │ ├── train.json │ ├── valid.json │ └── test.json ├── personality/ │ ├── concepts_all.json │ ├── train.json │ ├── valid.json │ └── test.json └── reasoning_patterns/ ├── concepts_all.json ├── train.json ├── valid.json └── test.json

数据格式

train.json / test.json / valid.json

每个文件包含一个样本的扁平列表。每个样本包含以下字段：

字段	类型	描述
`domain`	字符串	概念所属的行为领域。取值为 `language_features`、`sentiment`、`personality`、`reasoning_patterns` 之一。
`concept_id`	字符串	层次概念标识符，格式为 `L{level}_{index}`（例如 `L1_3`、`L2_5`）。级别范围从 1 到 3；索引在每个领域-级别对中从 1 到 8。
`concept`	字符串	描述控制目标概念的简明名称。
`concept_description`	字符串	概念的详细自然语言描述，解释其含义及其在语言使用中的表现方式。
`question_id`	整数	该样本在其概念组内的从零开始的索引。
`question`	字符串	旨在引发能够展现或对比目标概念的回答的问题或提示。
`matching`	字符串	展现目标概念的模型回答。用作训练的正例。
`not_matching`	字符串	未展现目标概念，而是反映对比行为的模型回答。用作负例。

concepts_all.json

域中所有控制目标概念的扁平列表。每个条目包含以下字段：

字段	类型	描述
`concept_id`	字符串	层次概念标识符，格式同上（`L{level}_{index}`）。
`concept`	字符串	描述概念的简明名称。
`level`	整数	规范级别：`1` = 计算级别（表达什么），`2` = 算法级别（如何表达），`3` = 实现级别（如何实例化）。

加载方式

python from datasets import load_dataset dataset = load_dataset("zjunlp/SteerEval")

引用信息

如果使用此工作，请引用论文： bibtex @misc{xu2026controllablelargelanguagemodels, title={How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities}, author={Ziwen Xu and Kewei Xu and Haoming Xu and Haiwen Hong and Longtao Huang and Hui Xue and Ningyu Zhang and Yongliang Shen and Guozhou Zheng and Huajun Chen and Shumin Deng}, year={2026}, eprint={2603.02578}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.02578}, }

搜集汇总

数据集介绍

构建方式

在大型语言模型可控性评估领域，SteerEval数据集的构建体现了系统化的设计理念。该数据集以行为领域和粒度层级为双轴框架，将控制目标划分为语言特征、情感、个性和推理模式四个行为领域。每个领域进一步细分为三个层级：计算层关注表达内容，算法层关注表达方式，实现层关注具体实例化。针对每个概念，数据集精心编制了70个训练样本、30个测试样本和5个验证样本，每个样本包含一个问题及其匹配与非匹配答案，最终形成总计10,080个样本的核心评估基准。

特点

SteerEval数据集展现出层次化与多维度的显著特征。其结构以行为领域和粒度层级为经纬，构建了四领域三层的评估矩阵，实现了对语言模型可控性的全面覆盖。每个概念均配有详尽的描述，样本设计采用匹配与非匹配答案的对比形式，增强了评估的区分度。数据组织遵循清晰的领域划分，每个领域独立包含概念列表及训练、验证、测试分割，便于针对性分析与模型调试。这种设计不仅支持细粒度的行为控制研究，也为跨领域比较提供了统一框架。

使用方法

使用SteerEval数据集时，可通过Hugging Face的datasets库直接加载，具体指令为`load_dataset('zjunlp/SteerEval')`。数据集按行为领域分目录存储，每个目录下包含概念列表文件及训练、验证、测试的JSON文件。用户可依据研究需求，选择特定领域或层级的概念进行模型训练与评估。样本中的匹配答案可作为正例指导模型学习目标行为，非匹配答案则作为负例辅助对比分析。该结构支持端到端的可控性实验，便于研究者系统探索语言模型在不同行为维度上的响应特性。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，对其行为可控性的评估需求日益凸显。SteerEval数据集由浙江大学团队于2026年创建，旨在系统评估大语言模型在行为领域和粒度层级上的可控性。该数据集围绕语言特征、情感、个性和推理模式四大行为领域，构建了计算层、算法层和实施层三层粒度体系，共包含一万余条标注样本。其创新性的层次化评估框架为理解模型行为调控机制提供了标准化工具，推动了可控文本生成研究向细粒度、结构化方向发展。

当前挑战

在领域问题层面，SteerEval致力于解决大语言模型行为可控性评估的碎片化难题。传统评估方法往往针对孤立行为进行测试，缺乏跨领域、跨粒度的统一度量体系，难以全面反映模型对复杂指令的响应能力。在构建过程中，研究团队面临行为概念层次化定义的挑战，需要将抽象的语言行为精确分解为可操作的计算、算法和实施三层规范。同时，为每个概念生成高质量的正负样本对，要求标注者深入理解概念内涵并保持语义对比的一致性，这对标注流程的设计与质量控制提出了较高要求。

常用场景

经典使用场景

在大型语言模型可控性研究领域，SteerEval数据集作为层次化评估基准，其经典使用场景在于系统性地评测模型在语言特征、情感、个性和推理模式四大行为域内的可控表现。研究者通过该数据集提供的多层次概念样本，能够训练并验证模型在不同粒度行为规范下的响应能力，从而深入探究模型是否能够精准遵循从计算层到实现层的复杂指令，为模型行为控制提供标准化测试环境。

衍生相关工作

围绕SteerEval数据集已衍生出多项经典研究工作，包括基于层次化概念的可控生成算法改进、跨行为域的知识编辑技术探索等。这些研究通过扩展数据集的评估维度，开发了新型模型控制方法，并在细粒度行为对齐、多维度可控性增强等方面取得突破。相关成果进一步丰富了行为可控性理论体系，为后续研究建立了可复现的实验范式与比较基准。

数据集最近研究