hexa-forge-bench-cold-v0.1.3
收藏数据集详情:hexa-forge per-round benchmark rollup (v0.1.3 → v0.4.1)
基本信息
- 数据集名称: hexa-forge per-round benchmark rollup (v0.1.3 → v0.4.1)
- 仓库地址:
dancinlab/hexa-forge-bench-cold-v0.1.3 - 许可证: Apache-2.0
- 标签: hexa-forge, benchmark, eval, cold-bench, per-round-rollup, hexa-lang
- 更新时间: 2026-05-13(post r41)
- 数据集规模: 包含55+个基准测试子目录(涵盖r3到r41轮次)
数据集用途
该数据集是forge训练阶梯中每个适配器在严格通过评估(strict-pass evaluation)上的唯一真相来源(source of truth)。最初为v0.1.3 G-BASE的3模型冷启动基准测试,随着训练阶梯从r3运行至r41轮次,已累积了55+个基准测试子目录。
数据集结构
目录布局
每个子目录代表一次(适配器 × 评估)运行,包含两个文件:
per_task_strict.jsonl:每行一个任务,包含task_id(任务ID)、family(任务族)、pass(布尔值,是否通过)、gold_pattern(黄金模式)以及模型的completion(补全结果,已截断)scores_strict.json:聚合得分,包含pass_at_1(总体通过率)和per_family(各任务族得分)
子目录命名规则
hexa-eval-mk1-7b-<round>/:Mk.I 665任务hexa-canon评估(7B适配器)five-nl-7b-<round>/:25任务5-NL国际化评估delegation-mk0-7b-<round>/:200任务路由评估(r40新增)- 早期子目录使用较短命名,如
hexa-eval-r3、hexa-eval-mk0等
关键评估结果
v0.4.0 GA候选版本(r39,推荐用于生产环境)
- 适配器:
dancinlab/hexa-forge-code-7b-qwen2.5-lora-r64-v0.4.0-rl-t4-v3-t3patch - 关键子目录:
hexa-eval-mk1-7b-v040-rl-t4-v3-t3patch/+five-nl-7b-v040-rl-t4-v3-t3patch/
Mk.I 评估得分(665任务)
| 任务族 | 得分 |
|---|---|
| Mk.I 总体 | 94.29%(627/665) |
| T1 语法 | 97.6% |
| T2 图谱 | 97.0% |
| T3 @grace | 100.0% 🎯 |
| T4 枚举 | 100.0% 🎯 |
| T5 HX-codes | 95.8% |
| T6 三元组 | 98.5% |
| T7 标准库 | 87.9% |
| T8 拒绝 | 87.5% |
5-NL 评估得分(25任务)
- 总体: 96%(24/25)
重要里程碑:Mk.I ≥ 80%(门③)和5-NL ≥ 90%(门④)均已达标,且有两位数余量。
Forge训练阶梯历程(Mk.I严格评估)
| 轮次 | 适配器简称 | Mk.I得分 | 备注 |
|---|---|---|---|
| r3 | 3B SFT v2 | 54.7% | 首个3B基准线 |
| r8 | 3B SFT v7(Apple) | 54.7% | 增加广度;无六边形回归 |
| r10 | 3B SFT r10(RunPod ops) | 59.3% | 最佳3B |
| r11 | 3B SFT r11 + production GGUF | 63.5% | v0.2.0生产版本 |
| r29 | 7B v15 | 63.2% | 杠杆1单独——持平 |
| r30 | 7B v14(real-canon Q/A) | 72.3% | 杠杆2——+9pp |
| r31 | 7B v15(table-rooted T5) | 77.7% | T5从41%提升至99% |
| r32 | 7B v16(重平衡) | 77.1% / 85.1%(q-tol) | T2/T6/T8恢复;T3评分器有工件 |
| r33 | r4 + Phase-A T3 manifest修复 | 83.8% | 门③严格达标 |
| r34 | 7B v17(T7修复) | 76.7% | T7+6.9,但T3−52.5 ⚠(标记为工件) |
| r36 | v0.4.0-rl-t4-v2(杠杆4 GRPO) | 87.7% | T4从55%提升至77%(首次RL胜利) |
| r37 | v2重新评分(T4结构manifest修复) | 89.5% | T4从77%提升至89% |
| r38 | v0.4.0-rl-t4-v3(杠杆4 v3 + T4主体修复) | 91.0% | T4从89%提升至100% 🎯 |
| r39 | v3-t3patch — GA | 94.3% | T3从58%→100% 🎯;5-NL 96% |
| r40 | v0.4.0-delegate(SFT 25%委派) | 82.7% | 非GA——标记为实验 |
| r41 | v0.4.1-delegate(SFT 9%委派) | 83.0% | 非GA——标记为实验 |
整体提升: 从首个3B运行(54.7%)到v0.4.0 GA(94.29%)共计提升**+39.59个百分点**。
DLG-mk0路由评估(新增)
该评估针对两个委派线适配器,基于200任务的路由评估检查路由决策(委派 ↔ 直接回答 ↔ 拒绝),与供应商回答质量无关。两者均为标记的实验版本,非GA。
| 轮次 | DLG-mk0总体 | s_route | s_schema | 结论 |
|---|---|---|---|---|
| r40 v18(25%委派) | 0.7652 | 0.66 | 0.92 | 非GA——未达到门限 |
| r41 v19(9%委派) | 0.7760 | 0.68 | 0.91 | 非GA——基本持平 |
v0.4.2计划:路由强化学习(基于二进制路由正确性奖励的GRPO,KL锚定至r39 GA版本)。
数据使用示例
加载聚合得分
python import json from huggingface_hub import hf_hub_download p = hf_hub_download( repo_id="dancinlab/hexa-forge-bench-cold-v0.1.3", filename="hexa-eval-mk1-7b-v040-rl-t4-v3-t3patch/scores_strict.json", repo_type="dataset", ) print(json.load(open(p)))
逐任务分析
python import json p = hf_hub_download( repo_id="dancinlab/hexa-forge-bench-cold-v0.1.3", filename="hexa-eval-mk1-7b-v040-rl-t4-v3-t3patch/per_task_strict.jsonl", repo_type="dataset", ) rows = [json.loads(l) for l in open(p) if l.strip()]
665行数据;可按任务族分组或筛选pass=False进行失败分析
评分机制说明
- 所有得分为严格评分器上的pass@1(首次通过率)
- T4:通过真实
hexa_cc编译器编译 - T2/T3/T6:通过
byte_exact_subset字节精确子集匹配 - T7:通过 是/否 首行匹配
相关资源
- 评估规范:
lm_foundry/papers/spec-hexa-eval.md - 5-NL评估规范:
lm_foundry/papers/spec-five-nl-eval.md - 委派评估规范:
lm_foundry/papers/spec-delegation-v0.4.0.md - 轮次叙述:
lm_foundry/ROADMAP.md - 知识库:
lm_foundry/LEARNING_PROGRAMMING.md - 评估清单:
lm_foundry/eval/hexa-eval/manifest-mk1.jsonl(665任务)、lm_foundry/eval/five-nl-eval/manifest.jsonl(25任务)、lm_foundry/eval/delegation-mk0/manifest.jsonl(200任务)




