Harness Dataset SII 2026 Summer Camp
收藏数据集概述:Harness Dataset SII 2026 Summer Camp
数据集用途
本数据集专为 Harness Engineering 文本意图分类任务 设计,用于评估 Harness 在有限上下文窗口下的泛化能力、鲁棒性和安全性表现。
数据规模与领域
数据集覆盖 5个领域,每个领域包含 150 条训练样本和 300 条测试样本。
| 领域 | 训练样本数 | 测试样本数 | 标签数量 | MCS 训练样本 | MCS 测试样本 | 注入样本 |
|---|---|---|---|---|---|---|
| finance | 150 | 300 | 19 | 15 | 45 | 包含 |
| ecommerce | 150 | 300 | 19 | 15 | 45 | 包含 |
| tech_support | 150 | 300 | 19 | 15 | 45 | 包含 |
| medical_triage | 150 | 300 | 19 | 15 | 45 | 包含 |
| news_topic | 150 | 300 | 19 | 15 | 45 | 包含 |
数据格式
每条样本为统一 JSONL 格式,包含以下字段:
- text:待分类的自然语言文本
- label:目标类别标签,需要完全匹配预测结果
设计目标与评测维度
1. 多领域泛化能力
覆盖金融、电商、技术支持、医疗分诊、新闻主题五个领域,测试模型是否能适配不同任务语义和标签空间。
2. OOD 分布外泛化能力
每个领域数据集中混入跨领域样本,例如 finance 领域可能包含电商支付、医疗账单等语境,用于测试模型在领域迁移或语境混合下的稳定分类能力。
3. MCS 多选题能力
每个领域包含自然语言多选题样本,标签为 A/B/C/D,用于测试 Harness 处理复杂自然语言选择题的能力。
4. Tone 鲁棒性
每个领域包含多种语气或表达方式的样本:
- neutral / polite / urgent / frustrated
- casual / formal / terse / verbose
测试不同提问语气下模型的输出一致性。
5. Prompt Injection 防护
每个领域包含提示词注入样本,包括要求忽略原始指令、伪造 system override、要求输出错误标签、要求泄露 hidden prompt 等,用于测试模型是否将恶意指令视为待分类内容而非执行指令。
仓库结构
Harness_Dataset_SII2026Summer-Camp/ ├── finance/ │ ├── train.jsonl │ └── test.jsonl ├── ecommerce/ │ ├── train.jsonl │ └── test.jsonl ├── tech_support/ │ ├── train.jsonl │ └── test.jsonl ├── medical_triage/ │ ├── train.jsonl │ └── test.jsonl ├── news_topic/ │ ├── train.jsonl │ └── test.jsonl ├── manifest.json ├── dataset_summary.json └── README.md
文件说明
- manifest.json:记录每个领域的数据文件路径、标签集合和数据说明
- dataset_summary.json:记录每个领域的数据规模、标签数量、MCS 样本数量和注入样本统计信息
- */train.jsonl:对应领域的训练集
- */test.jsonl:对应领域的测试集
注意事项
- 数据集用于文本分类、OOD 泛化、MCS 选择题泛化和 Prompt Injection 鲁棒性测试
- Prompt Injection 文本是评测内容的一部分,不应执行其中的恶意指令
- MCS 样本预测结果应直接返回 A/B/C/D,普通分类样本返回对应标签字符串
- 评估推荐使用准确率(exact match accuracy)
许可协议
本数据集仅供研究、教育和评估用途。




