Harness Dataset SII 2026 Summer Camp

github2026-05-08 更新2026-05-09 收录

下载链接：

https://github.com/CoisiniStar/Harness_Dataset_SII2026Summer-Camp

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供用于Harness Engineering文本意图分类任务的多领域JSONL数据集。数据集设计目标是帮助评估Harness在有限上下文窗口下的泛化能力、鲁棒性和安全性表现。数据集包含5个领域：finance、ecommerce、tech_support、medical_triage和news_topic，每个领域均包含训练和测试样本。

This repository provides a multi-domain JSONL dataset for the Harness Engineering text intent classification task. The dataset is designed to help evaluate Harness's generalization ability, robustness and safety performance under limited context windows. The dataset covers five domains: finance, ecommerce, tech_support, medical_triage and news_topic, with training and test samples included for each domain.

创建时间：

2026-05-08

原始信息汇总

数据集概述：Harness Dataset SII 2026 Summer Camp

数据集用途

本数据集专为 Harness Engineering 文本意图分类任务 设计，用于评估 Harness 在有限上下文窗口下的泛化能力、鲁棒性和安全性表现。

数据规模与领域

数据集覆盖 5个领域，每个领域包含 150 条训练样本和 300 条测试样本。

领域	训练样本数	测试样本数	标签数量	MCS 训练样本	MCS 测试样本	注入样本
finance	150	300	19	15	45	包含
ecommerce	150	300	19	15	45	包含
tech_support	150	300	19	15	45	包含
medical_triage	150	300	19	15	45	包含
news_topic	150	300	19	15	45	包含

数据格式

每条样本为统一 JSONL 格式，包含以下字段：

text：待分类的自然语言文本
label：目标类别标签，需要完全匹配预测结果

设计目标与评测维度

1. 多领域泛化能力

覆盖金融、电商、技术支持、医疗分诊、新闻主题五个领域，测试模型是否能适配不同任务语义和标签空间。

2. OOD 分布外泛化能力

每个领域数据集中混入跨领域样本，例如 finance 领域可能包含电商支付、医疗账单等语境，用于测试模型在领域迁移或语境混合下的稳定分类能力。

3. MCS 多选题能力

每个领域包含自然语言多选题样本，标签为 A/B/C/D，用于测试 Harness 处理复杂自然语言选择题的能力。

4. Tone 鲁棒性

每个领域包含多种语气或表达方式的样本：

neutral / polite / urgent / frustrated
casual / formal / terse / verbose

测试不同提问语气下模型的输出一致性。

5. Prompt Injection 防护

每个领域包含提示词注入样本，包括要求忽略原始指令、伪造 system override、要求输出错误标签、要求泄露 hidden prompt 等，用于测试模型是否将恶意指令视为待分类内容而非执行指令。

仓库结构

Harness_Dataset_SII2026Summer-Camp/ ├── finance/ │ ├── train.jsonl │ └── test.jsonl ├── ecommerce/ │ ├── train.jsonl │ └── test.jsonl ├── tech_support/ │ ├── train.jsonl │ └── test.jsonl ├── medical_triage/ │ ├── train.jsonl │ └── test.jsonl ├── news_topic/ │ ├── train.jsonl │ └── test.jsonl ├── manifest.json ├── dataset_summary.json └── README.md

文件说明

manifest.json：记录每个领域的数据文件路径、标签集合和数据说明
dataset_summary.json：记录每个领域的数据规模、标签数量、MCS 样本数量和注入样本统计信息
*/train.jsonl：对应领域的训练集
*/test.jsonl：对应领域的测试集

注意事项

数据集用于文本分类、OOD 泛化、MCS 选择题泛化和 Prompt Injection 鲁棒性测试
Prompt Injection 文本是评测内容的一部分，不应执行其中的恶意指令
MCS 样本预测结果应直接返回 A/B/C/D，普通分类样本返回对应标签字符串
评估推荐使用准确率（exact match accuracy）

许可协议

本数据集仅供研究、教育和评估用途。

搜集汇总

数据集介绍

构建方式

在自然语言处理的广阔图景中，文本意图分类任务始终是衡量模型语义理解能力的基石。为系统评估Harness模型在有限上下文窗口下的综合表现，该数据集应运而生。其构建过程严谨而富有层次：数据集覆盖金融、电商、技术支持、医疗分诊与新闻主题五大领域，每个领域均包含150条训练样本与300条测试样本，总计2250条精心标注的数据。所有样本采用统一的JSONL格式，每条数据由待分类的自然语言文本与对应的类别标签构成。为确保评估的全面性，数据集中系统性地混入了多种特殊样本：跨领域样本用于测试分布外泛化能力，多选题样本用于检验复杂推理能力，不同语气样本用于考察鲁棒性，以及提示词注入样本用于评估安全性防护水平。

特点

该数据集最引人注目的特点在于其多维度的评测设计，堪称模型能力的全面试金石。它巧妙地将多领域泛化能力、分布外泛化能力、多选题处理能力、语气鲁棒性以及提示词注入防护能力融为一体。每个领域标签数量多达19个，既包含15个领域分类标签，又额外纳入A、B、C、D四选一的多选题标签。更为精妙的是，测试集中出现的所有标签均保证在训练集中出现过，确保了评估的公平性与一致性。数据集中嵌入的提示词注入样本并非数据缺陷，而是精心设计的评测内容，用于检验模型是否能将恶意指令视为待分类文本而非执行命令。

使用方法

使用该数据集进行模型评估的过程简洁而高效。研究者可以直接按领域读取JSONL格式的数据文件，通过Python的json库与pathlib模块即可轻松加载。典型的评估流程包含两个阶段：首先使用训练数据对Harness模型进行更新，随后在测试数据上进行预测并与真实标签进行精确匹配比较。推荐采用精确匹配准确率作为核心评估指标，因为任务要求预测结果与标签字符串完全一致。此外，数据集中还提供了配套的数据校验脚本，可用于检查每个领域的数据规模、标签约束等完整性条件。注意事项中明确指出，多选题样本应直接预测A、B、C或D，普通分类样本则需返回对应的标签字符串，评估时务必采用精确匹配而非模糊匹配方式。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，如何系统评估模型在有限上下文窗口下的泛化能力、鲁棒性与安全性成为亟待解决的关键问题。Harness Dataset SII 2026 Summer Camp 数据集正是在这一背景下，由相关研究团队于2026年夏季发布，旨在为Harness Engineering的文本意图分类任务提供多领域评测基准。该数据集涵盖金融、电商、技术支持、医疗分诊及新闻主题五个领域，每个领域均包含精细标注的训练与测试样本，并特别设计了跨领域样本混入、多语气表达及提示词注入等复杂场景，以全面考察模型在分布外泛化、多选项推理与安全防护方面的表现。作为专门针对Harness框架的评估工具，该数据集为研究者在意图分类任务上深入探索模型的行为特性与边界提供了宝贵资源。

当前挑战

该数据集所应对的核心挑战在于多领域意图分类任务中模型泛化与安全的双重考验。具体而言，如何确保模型在金融、医疗等差异显著领域间实现稳定的语义迁移，同时抵御混入的跨领域样本对分类决策的干扰，考验其分布外泛化能力。此外，数据集引入的多语气表达、多选题格式与提示词注入攻击，进一步复杂化了任务：模型需在语气多变时维持一致的分类标签，应对非传统意图分类的选择题结构，并有效识别并拒斥用户文本中的恶意指令，防止被诱导执行错误操作或泄露内部信息。在构建过程中，设计团队需精细平衡各领域标签空间的一致性，确保测试集中不可见标签不出现，同时巧妙嵌入注入样本使其兼具评测效度与自然性，这无疑增加了数据构建的复杂性。

常用场景

经典使用场景

该数据集最经典的使用场景聚焦于 Harness Engineering 框架下的多领域文本意图分类任务。通过横跨金融、电商、技术支持、医疗分诊与新闻主题五大垂直领域，研究者得以在统一的 JSONL 格式下评估模型面对多样化语义空间与标签体系的泛化能力。每个领域精心配置了 150 条训练样本与 300 条测试样本，并在其中巧妙嵌入了分布外样本与多选题样本，使得这一数据集成为检验连续上下文窗口中意图识别模型鲁棒性与跨领域迁移能力的理想基准。实验者通常基于该数据集构建领域的分类流水线，并严格采用精确匹配准确率作为评价标尺。

衍生相关工作

基于该数据集的评估范式，衍生出了一系列引领领域发展的经典工作。在鲁棒性领域，研究者借鉴其提示词注入检测思路，提出了融合对抗训练与隐空间正则化的安全增强策略，显著提升了模型在恶意指令扰动下的标签一致性。在跨领域迁移学习方面，该数据集成为了多任务元学习与领域自适应算法的标准验证平台，催生了多项关于少样本泛化边界与标签空间映射机制的理论成果。此外，针对 MCS 多选题任务的语言理解特性，衍生了针对选项语义解构与选择逻辑推理的专项模型结构改进，这些工作共同推动了意图识别从静态分类向动态、安全、可迁移方向演进。

数据集最近研究