hexa-forge-bench-cold-v0.1.3

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/dancinlab/hexa-forge-bench-cold-v0.1.3

下载链接

链接失效反馈

官方服务：

资源简介：

hexa-forge per-round benchmark rollup数据集是一个用于系统记录和评估hexa-forge训练过程中各轮次适配器性能的基准测试汇总集合。该数据集从v0.1.3版本开始收集，持续更新至v0.4.1版本，涵盖了从训练轮次r3到r41的完整评估历史。数据集包含55个以上的子目录，每个子目录对应一个特定的适配器在特定轮次的评估运行。每个子目录包含两个核心文件：per_task_strict.jsonl文件提供每项任务的详细评估结果，包括任务ID、任务家族、通过状态（布尔值）、黄金模式以及模型生成的截断完成内容；scores_strict.json文件则提供聚合的评估分数，包括总体pass_at_1分数和各任务家族的详细得分。数据集主要包含三种评估类型：Mk.I hexa-canon评估包含665项任务，涵盖语法、图谱、枚举、代码、三元组、标准库和拒绝等多个任务家族；5-NL国际化评估包含25项任务；DLG-mk0路由评估包含200项任务，专门评估模型的路径选择决策能力。该数据集适用于机器学习模型性能评估、基准测试比较、适配器优化跟踪、任务家族分析等场景。数据采用Apache-2.0许可证，提供了详细的代码示例展示如何下载和使用数据文件进行进一步分析。

The hexa-forge per-round benchmark rollup dataset is a benchmark testing summary collection used for systematically recording and evaluating the performance of adapters across various rounds in the hexa-forge training process. This dataset has been collected starting from version v0.1.3 and is continuously updated up to version v0.4.1, covering the complete evaluation history from training round r3 to r41. The dataset contains over 55 subdirectories, each corresponding to a specific adapters evaluation run at a particular round. Each subdirectory includes two core files: the per_task_strict.jsonl file provides detailed evaluation results for each task, including task ID, task family, pass status (boolean), gold patterns, and truncated completions generated by the model; the scores_strict.json file provides aggregated evaluation scores, including the overall pass_at_1 score and detailed scores for each task family. The dataset primarily includes three types of evaluations: the Mk.I hexa-canon evaluation comprises 665 tasks, covering multiple task families such as syntax, graphs, enumeration, code, triples, standard library, and rejection; the 5-NL internationalization evaluation includes 25 tasks; and the DLG-mk0 routing evaluation contains 200 tasks, specifically designed to assess the models path selection decision-making capabilities. This dataset is suitable for scenarios such as machine learning model performance evaluation, benchmark comparison, adapter optimization tracking, and task family analysis. The data is licensed under Apache-2.0 and includes detailed code examples demonstrating how to download and use the data files for further analysis.

创建时间：

2026-05-11

原始信息汇总

数据集详情：hexa-forge per-round benchmark rollup (v0.1.3 → v0.4.1)

基本信息

数据集名称: hexa-forge per-round benchmark rollup (v0.1.3 → v0.4.1)
仓库地址: dancinlab/hexa-forge-bench-cold-v0.1.3
许可证: Apache-2.0
标签: hexa-forge, benchmark, eval, cold-bench, per-round-rollup, hexa-lang
更新时间: 2026-05-13（post r41）
数据集规模: 包含55+个基准测试子目录（涵盖r3到r41轮次）

数据集用途

该数据集是forge训练阶梯中每个适配器在严格通过评估（strict-pass evaluation）上的唯一真相来源（source of truth）。最初为v0.1.3 G-BASE的3模型冷启动基准测试，随着训练阶梯从r3运行至r41轮次，已累积了55+个基准测试子目录。

数据集结构

目录布局

每个子目录代表一次（适配器 × 评估）运行，包含两个文件：

per_task_strict.jsonl：每行一个任务，包含 task_id（任务ID）、family（任务族）、pass（布尔值，是否通过）、gold_pattern（黄金模式）以及模型的 completion（补全结果，已截断）
scores_strict.json：聚合得分，包含 pass_at_1（总体通过率）和 per_family（各任务族得分）

子目录命名规则

hexa-eval-mk1-7b-<round>/：Mk.I 665任务hexa-canon评估（7B适配器）
five-nl-7b-<round>/：25任务5-NL国际化评估
delegation-mk0-7b-<round>/：200任务路由评估（r40新增）
早期子目录使用较短命名，如 hexa-eval-r3、hexa-eval-mk0 等

关键评估结果

v0.4.0 GA候选版本（r39，推荐用于生产环境）

适配器: dancinlab/hexa-forge-code-7b-qwen2.5-lora-r64-v0.4.0-rl-t4-v3-t3patch
关键子目录: hexa-eval-mk1-7b-v040-rl-t4-v3-t3patch/ + five-nl-7b-v040-rl-t4-v3-t3patch/

Mk.I 评估得分（665任务）

任务族	得分
Mk.I 总体	94.29%（627/665）
T1 语法	97.6%
T2 图谱	97.0%
T3 @grace	100.0% 🎯
T4 枚举	100.0% 🎯
T5 HX-codes	95.8%
T6 三元组	98.5%
T7 标准库	87.9%
T8 拒绝	87.5%

5-NL 评估得分（25任务）

总体: 96%（24/25）

重要里程碑：Mk.I ≥ 80%（门③）和5-NL ≥ 90%（门④）均已达标，且有两位数余量。

Forge训练阶梯历程（Mk.I严格评估）

轮次	适配器简称	Mk.I得分	备注
r3	3B SFT v2	54.7%	首个3B基准线
r8	3B SFT v7（Apple）	54.7%	增加广度；无六边形回归
r10	3B SFT r10（RunPod ops）	59.3%	最佳3B
r11	3B SFT r11 + production GGUF	63.5%	v0.2.0生产版本
r29	7B v15	63.2%	杠杆1单独——持平
r30	7B v14（real-canon Q/A）	72.3%	杠杆2——+9pp
r31	7B v15（table-rooted T5）	77.7%	T5从41%提升至99%
r32	7B v16（重平衡）	77.1% / 85.1%（q-tol）	T2/T6/T8恢复；T3评分器有工件
r33	r4 + Phase-A T3 manifest修复	83.8%	门③严格达标
r34	7B v17（T7修复）	76.7%	T7+6.9，但T3−52.5 ⚠（标记为工件）
r36	v0.4.0-rl-t4-v2（杠杆4 GRPO）	87.7%	T4从55%提升至77%（首次RL胜利）
r37	v2重新评分（T4结构manifest修复）	89.5%	T4从77%提升至89%
r38	v0.4.0-rl-t4-v3（杠杆4 v3 + T4主体修复）	91.0%	T4从89%提升至100% 🎯
r39	v3-t3patch — GA	94.3%	T3从58%→100% 🎯；5-NL 96%
r40	v0.4.0-delegate（SFT 25%委派）	82.7%	非GA——标记为实验
r41	v0.4.1-delegate（SFT 9%委派）	83.0%	非GA——标记为实验

整体提升: 从首个3B运行（54.7%）到v0.4.0 GA（94.29%）共计提升**+39.59个百分点**。

DLG-mk0路由评估（新增）

该评估针对两个委派线适配器，基于200任务的路由评估检查路由决策（委派 ↔ 直接回答 ↔ 拒绝），与供应商回答质量无关。两者均为标记的实验版本，非GA。

轮次	DLG-mk0总体	s_route	s_schema	结论
r40 v18（25%委派）	0.7652	0.66	0.92	非GA——未达到门限
r41 v19（9%委派）	0.7760	0.68	0.91	非GA——基本持平

v0.4.2计划：路由强化学习（基于二进制路由正确性奖励的GRPO，KL锚定至r39 GA版本）。

数据使用示例

加载聚合得分

python import json from huggingface_hub import hf_hub_download p = hf_hub_download( repo_id="dancinlab/hexa-forge-bench-cold-v0.1.3", filename="hexa-eval-mk1-7b-v040-rl-t4-v3-t3patch/scores_strict.json", repo_type="dataset", ) print(json.load(open(p)))

逐任务分析

python import json p = hf_hub_download( repo_id="dancinlab/hexa-forge-bench-cold-v0.1.3", filename="hexa-eval-mk1-7b-v040-rl-t4-v3-t3patch/per_task_strict.jsonl", repo_type="dataset", ) rows = [json.loads(l) for l in open(p) if l.strip()]

665行数据；可按任务族分组或筛选pass=False进行失败分析

评分机制说明

所有得分为严格评分器上的pass@1（首次通过率）
T4：通过真实 hexa_cc 编译器编译
T2/T3/T6：通过 byte_exact_subset 字节精确子集匹配
T7：通过 是/否 首行匹配

相关资源

评估规范：lm_foundry/papers/spec-hexa-eval.md
5-NL评估规范：lm_foundry/papers/spec-five-nl-eval.md
委派评估规范：lm_foundry/papers/spec-delegation-v0.4.0.md
轮次叙述：lm_foundry/ROADMAP.md
知识库：lm_foundry/LEARNING_PROGRAMMING.md
评估清单：lm_foundry/eval/hexa-eval/manifest-mk1.jsonl（665任务）、lm_foundry/eval/five-nl-eval/manifest.jsonl（25任务）、lm_foundry/eval/delegation-mk0/manifest.jsonl（200任务）

搜集汇总

数据集介绍

构建方式

该数据集以每次训练轮次为单元，系统性地汇集了在hexa-forge模型训练阶梯中，各适配器在严格评估标准下的表现数据。其构建始于v0.1.3版本的冷启动基准测试，涵盖了从第3轮到第41轮的55个以上评估子目录。每个子目录代表一次独立的适配器与评估运行，包含两项核心文件：per_task_strict.jsonl逐任务记录任务标识、所属类别、通过与否的布尔值、标准答案及模型输出；scores_strict.json则汇总了pass_at_1与按类别划分的聚合得分。子目录命名遵循严谨约定，如hexa-eval-mk1-7b-<round>代表Mk.I型号在7B适配器上的665项规范评估，five-nl-7b-<round>为25项多语言国际化评估，delegation-mk0-7b-<round>则是新增的200项路由评估。

使用方法

使用者可通过huggingface_hub库便捷地获取数据。使用hf_hub_download函数，指定数据集仓库标识符dancinlab/hexa-forge-bench-cold-v0.1.3，并选择目标子目录中的scores_strict.json文件，即可加载该轮次的聚合评估得分。若需进行细粒度的逐任务分析，可下载per_task_strict.jsonl文件，逐行解析JSON对象，通过检查pass字段为False的条目来定位模型表现薄弱的任务，并按family字段分组以分析不同评估类别的性能差异。这种按轮次、按适配器的组织方式，使得研究人员能够精准复现模型在训练阶梯中每一阶段的评估结果，为比较不同训练策略的有效性提供了标准化的度量依据。

背景与挑战

背景概述

该数据集由dancinlab研究团队于2026年创建，旨在系统评估Hexa-Forge训练框架下各轮次适配器在Hexa语言编程任务中的严格通过率。数据集核心围绕Mk.I基准评估、5-NL多语言评估及路由委托评估三大维度展开，追踪了从v0.1.3至v0.4.0的完整训练轨迹，累计包含55余个评估子目录。尤其在v0.4.0候选版本中，Mk.I综合得分突破94.29%，显著提升了Hexa语言模型的可信评估基准，对低资源编程语言的形式化验证与泛化能力研究具有里程碑意义。

当前挑战

领域层面，数据集致力于攻克Hexa语言模型在八项子任务族（如语法、标准库、拒绝策略）中的严格评估难题，尤其是T3与T4任务早期得分剧烈波动（如T3从83.8%骤降至76.7%），揭示出训练信号与评估器之间的偶然性偏差。构建过程中，团队面临多轮适配器得分回溯与对比的复杂挑战，需同步维护665任务Mk.I清单、25任务5-NL清单及200任务路由清单的一致性，同时需严格区分生产版本与标记实验，确保评估不可复现性降至最低。

常用场景

经典使用场景

在代码生成与智能编程语言理解的研究浪潮中，hexa-forge-bench-cold-v0.1.3数据集作为一套面向Hexa-Lang领域特定语言的严格评估基准，被广泛用于量化大语言模型在多轮训练进阶过程中的能力跃迁。该基准涵盖665项Mk.I标准任务，横跨语法解析、语义图谱、标准库调用与安全拒答等八大能力族，并结合5-NL多语言泛化评测与delegation路由决策测试，为模型在专有语言上的编绎通过率与指令遵循能力提供了精细化的度量标准。研究者通过该数据集的逐轮累积评分，能够系统性地追踪适配器从初版基线到成熟发布的性能演进轨迹。

解决学术问题

该数据集直面大语言模型在领域特定编程语言上缺乏标准化、可复现评估体系的学术困境，解决了长期存在于代码智能研究中的三个关键问题：其一，通过多族系任务结构（T1至T8）构建了层次化的能力诊断框架，使研究者能够定位模型在语法正确性、语义完整性、标准库应用及安全边界等细分维度的薄弱环节；其二，引入严格模式下的pass@1编译通过率作为客观评分标准，消除了主观评价带来的偏差；其三，借助跨轮次累积的55+评估子目录，为训练策略优化、强化学习奖励设计及数据配比调整提供了实证依据，显著推动了领域特化语言理解与生成的可重复性研究。

实际应用

在实际工程应用中，该数据集服务于Hexa-Forge训练阶梯中适配器的迭代优化与质量门控决策。具体而言，开发团队利用Mk.I整体评分作为门控阈值（如80%标准），判定模型是否具备生产部署资质；5-NL评测用于验证模型在英语之外的自然语言指令理解能力，确保多语言场景下的泛化鲁棒性；而delegation路由评估则用于检验模型在复杂查询中自主决策委派、直接回答或拒绝回答的智能调度能力。此外，数据集中的逐任务JSONL文件便于工程团队执行失败案例分析，从而精准定位语法缺陷或知识盲区，加速模型修复与版本迭代。

数据集最近研究