OOD + CNLST数据集

github2026-05-09 更新2026-05-10 收录

下载链接：

https://github.com/Kirito14IT/harness-engineering-sii-2026

下载链接

链接失效反馈

官方服务：

资源简介：

自建模拟私有数据集，包含OOD（跨领域分类21类）和CNLST（选择题选项标签14类）两部分，用于本地评测泛化能力。OOD数据集模拟多领域，与DEV标签体系完全不同；CNLST数据集模拟复杂自然语言选择题，文本为题干+选项，标签为正确选项串（如A、BC）。

Self-built simulated private dataset containing two subsets: OOD (21-class cross-domain classification task) and CNLST (14-class multiple-choice option label task), designed for local generalization capability evaluation. The OOD subset simulates multiple domains and is completely distinct from the DEV label system. The CNLST subset simulates complex natural language multiple-choice questions, where each sample's text comprises the question stem and options, and the labels are correct option strings (e.g., A, BC).

创建时间：

2026-05-09

原始信息汇总

数据集概述：Harness Engineering（上海创智学院 2026 夏令营）

本项目为上海创智学院 2026 年夏令营遴选考试中 Harness Engineering 考核的实现与配套资料。

考核背景

考核模式：在单轮 ≤2048 token 限制下，基于外部记忆与 Prompt 工程，调用 Qwen3-8B Instruct（非思考模式） 完成多类文本分类/自然语言理解任务，模型权重不更新。
数据特点：除官方 DEV 数据外，包含自建模拟私有数据集（OOD + CNLST），用于本地评测泛化能力；正式私有测试集不公开，格式与 run.py 及 JSONL 字段约定一致。

数据集构成

数据集	含义	类别数	说明
DEV	官方本地数据：`train_dev` / `test_dev`	客服意图 77 类	官方提供的评测数据
OOD	自建跨领域分类：`train_ood` / `test_ood`	跨领域分类 21 类	模拟 OOD，与 DEV 标签体系完全不同
CNLST	自建复杂自然语言选择题：`train_cnlst` / `test_cnlst`	选择题选项标签 14 类	文本为题干+选项，`label` 为正确选项串（如 `A`、`BC`）

数据格式

所有数据为 JSONL 格式，每行包含 {"text": "...", "label": "..."}。
predict() 返回值须与测试集 label 完全一致（exact match）。
自建集保证：测试集出现的标签均在对应训练集中出现（与考核说明一致）。

数据文件位置

data/train_ood.jsonl / data/test_ood.jsonl：OOD 数据集
data/train_cnlst.jsonl / data/test_cnlst.jsonl：CNLST 数据集
generate_sim_data.py：生成/校验上述自建集的脚本

本地评测性能（4 轮均值）

数据集	准确率（均值）
DEV	81.0%
OOD	82.6%
CNLST	80.6%

三项算术平均约 81.4%（仅反映本地模拟设置下的表现）。

目录结构（与数据相关）

├── data/ # 数据目录（含 JSONL 文件和 data/README.md） ├── generate_sim_data.py # 自建集生成脚本

搜集汇总

数据集介绍

构建方式

OOD+CNLST数据集是为上海创智学院2026年夏令营Harness Engineering考核而构建的模拟私有数据集，旨在评估模型在单轮2048 token限制下的跨领域泛化能力。OOD部分源自多领域真实文本，通过LLM辅助生成标签体系完全不同于官方DEV的21类跨领域分类任务；CNLST部分采用模板化方法构建，将题干与多选项组合为自然语言选择题，正确选项串（如A、BC）作为标签，以模拟复杂阅读理解场景。两者均以JSONL格式存储，每行包含text与label字段，且测试集标签全部出现在训练集中，确保评测的合理性与一致性。生成脚本generate_sim_data.py提供了完整的重现与校验流程。

使用方法

使用该数据集时，需首先配置OpenAI兼容接口的LLM服务（推荐Qwen3-8B Instruct），在llm_client.py中填写BASE_URL、API_KEY及MODEL名称。随后通过run.py进行本地评测，默认四轮取平均以降低抖动。针对OOD数据集，执行'python run.py --train data/train_ood.jsonl --dev data/test_ood.jsonl'；针对CNLST数据集，执行对应的训练与测试文件路径。预测结果须与测试集label完全一致，且输入Prompt Token总数不得超过2048。用户也可通过调整--runs参数改变评测轮次，或利用--workers参数设置并发数以应对API限流。

背景与挑战

背景概述

OOD + CNLST数据集诞生于上海创智学院2026年夏令营的Harness Engineering考核项目，由研究团队为评测大语言模型在严格token限制下的泛化能力而构建。该数据集的核心研究问题聚焦于如何在不更新模型权重的前提下，通过外部记忆与提示工程策略，使Qwen3-8B Instruct模型在跨领域分类与复杂自然语言理解任务中保持鲁棒性能。作为领域内少有的面向私有化评估场景的数据集，其创建弥补了公开评测集在模拟真实部署环境时面临的分布偏移与任务复杂性不足的缺陷，为低资源、高约束条件的自然语言处理研究提供了重要的基准测试资源。

当前挑战

该数据集所应对的核心挑战在于突破单轮2048 token限制下的多类文本分类性能瓶颈，特别是在OOD子集中需处理与训练数据标签体系完全不同的跨领域分类问题，而CNLST子集则要求模型精准解析多选项选择题的语义逻辑并输出正确标签组合。构建过程中，OOD数据需借助大语言模型辅助生成以确保领域多样性，同时避免标签泄露；CNLST数据则采用模板化生成策略以维护事实一致性。此外，如何在避免模型窃取测试标签、禁止读写文件等严格合规约束下，实现提示工程的最优设计，成为提升评测准确率的关键技术难题。

常用场景

经典使用场景

在自然语言处理与文本分类领域，OOD + CNLST数据集被广泛用于评测语言模型在严格token预算约束下的少样本泛化能力。其经典使用场景是结合外部记忆与提示工程，在单轮不超过2048个token的限制下，调用Qwen3-8B Instruct等模型的非思考模式，完成跨领域意图分类或复杂选择题解答。该数据集通过模拟与训练标签体系截然不同的测试样本，专门检验模型在分布外（OOD）场景中的鲁棒性，以及处理多选逻辑推理（CNLST）的精度。研究者通常利用该数据集进行轻量级、参数冻结的文本理解任务评估，从而度量基于检索增强或结构化解码的提示策略效果。

解决学术问题

OOD + CNLST数据集的核心贡献在于解决了低资源、约束严苛环境下语言模型的领域迁移与推理表征问题。在学术研究中，它针对两个关键痛点：一是传统分类器在标签空间偏移时性能骤降，二是复杂选项组合题（如多选串联）对模型符号推理能力的挑战。通过提供与官方数据分布迥异的私有评测集，该数据集使得研究者能够定量分析提示工程、记忆增强或槽位填充等策略对跨领域适应性的改善程度。它所揭示的分布外鲁棒性规律与推理链容量限制，为理解Transformer模型在真实部署中的脆弱性提供了宝贵的实证依据。

实际应用

在实际工业应用中，OOD + CNLST数据集催生了一系列面向智能客服、教育测评与知识问答系统的解决方案。例如，在客服意图识别场景中，模型需从77类标准意图中预测，而该数据集引入的21类跨领域分类任务恰好模拟了业务扩展时的新增意图检测瓶颈。此外，CNLST所对应的复杂自然语言选择题（如跨学科多选题）被直接用于自动化入学测试、题库生成与个性化学习诊断。该数据集所验证的externally-augmented prompting范式，已被多家AI公司采纳为构建零样本问答管道的核心方案，显著降低了领域切换时的标注成本与推理延迟。

数据集最近研究