gsl-benchmark-logs

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/GoodStartLabs/gsl-benchmark-logs

下载链接

链接失效反馈

官方服务：

资源简介：

GSL Benchmark Logs数据集包含用于比较经过金拉米微调的Qwen3.5-27B模型与基础Qwen3.5-27B模型的评估日志和相关报告。数据集主要包含原始Inspect AI的.eval日志文件、配套报告以及审计文件，用于全面审计模型在15个不同基准测试中的表现。数据内容包括每样本预测、评分、标记级对数概率（部分捕获）以及CSV汇总报告。数据集目录结构清晰，分为run1_canonical（主比较层）、run2_logprobs（带对数概率的重新运行）、full_n（完整N重新运行）、reports（计分板CSV）和audit（每基准审计文件）等子目录。关键指标显示在不同基准测试中微调模型与基础模型的准确率对比及统计显著性。数据集特别标注了需要重新运行的基准、截断问题、采样伪影等注意事项，并提供了完整的来源信息和联系方式。

The GSL Benchmark Logs dataset contains evaluation logs and related reports for comparing the performance of the Gin Rummy fine-tuned Qwen3.5-27B model with the base Qwen3.5-27B model. The dataset primarily includes raw Inspect AI .eval log files, accompanying reports, and audit files for comprehensive auditing of the models performance across 15 different benchmarks. The data content includes per-sample predictions, scores, token-level log probabilities (partially captured), and CSV summary reports. The dataset has a clear directory structure, divided into subdirectories such as run1_canonical (main comparison layer), run2_logprobs (re-runs with log probabilities), full_n (full N re-runs), reports (scoreboard CSVs), and audit (per-benchmark audit files). Key metrics show the accuracy comparison and statistical significance between the fine-tuned model and the base model across different benchmarks. The dataset also notes special considerations such as benchmarks requiring re-runs, truncation issues, sampling artifacts, and provides complete source information and contact details.

创建时间：

2026-04-22

原始信息汇总

数据集概述：GSL Benchmark Logs — Gin-Rummy FT vs Base (Qwen3.5-27B)

基本信息

创建日期： 2026-04-24
维护方： GoodStartLabs
数据集内容： 包含针对 Gin-Rummy 微调版 Qwen3.5-27B 与基础版 Qwen3.5-27B 的基准测试对比原始 Inspect AI .eval 日志文件及相关报告。

目录结构

目录	内容说明	来源
`run1_canonical/`	"Thinking-on" 模式的精选 `.eval` 文件，涵盖全部15个基准测试的微调版（`ft/`）和基础版（`base/`）对比层	B200 `final_canonical/`
`run2_logprobs/`	第5阶段 "thinking-off + logprobs" 重跑，针对三个支持AUROC的多选题评估（`mmmu_multiple_choice`、`tombench`、`finben_regulations`），各含 `ft/` 和 `base/`	B200 `logs-logprobs-v3/`
`full_n/`	尚未整合进 `run1_canonical/` 的完整N次重跑结果：`space_apple` (2920)、`minerva_math` (部分, 4751)、`bfcl`、`hle_rerun_v3`、`pac_bench`、`tombench`	B200 `logs-full/`
`reports/`	得分板 CSV：`team_status.csv`、`headline_scores_v2.csv`、`status_as_is.csv`、`final_scores.csv`	本地工作站
`audit/`	按基准测试划分的审计 CSV（真错误 vs 解析 vs 截断分类）以及多选题重新抽取 JSON 文件	本地 `audit/`

早期遗留运行目录（gin-rummy-qwen3.5-27b/、FINAL-2026-04-22T06-11-01Z/）保留在根目录供历史参考。

`.eval` 文件读取方法

使用 Inspect AI 库读取：

python from inspect_ai.log import read_eval_log log = read_eval_log(run1_canonical/ft/math500.eval)

顶层统计信息

print(log.status, log.stats)

每个样本

for s in log.samples: print(s.id, s.score.value, s.output.completion[:80])

对于逐 token 的 logprobs（仅 run2_logprobs/ 可用）：

python

s.output.choices[0].logprobs.content -> list of TokenLogprob

关键得分表（来自 `reports/team_status.csv`）

评估名称	样本数	基础版准确率	微调版准确率	差值	结论
minerva_math	5000	0.898	0.928	+0.031	FT_WIN_CANDIDATE
aime2025	30	0.833	0.833	0.000	TIE
amc23	40	0.925	1.000	+0.075	TIE
bfcl	4981	0.749	0.741	-0.008	TIE
financebench	150	0.167	0.173	+0.007	TIE
finben-regulations (run1)	250	0.328	0.412	+0.084	TIE
finben-regulations (run2 thinking-off)	254	0.272	0.295	+0.024	TIE
finmathbench	90	0.878	0.900	+0.022	TIE
geogrambench	470	0.830	0.868	+0.038	TIE
math500	450	0.960	0.973	+0.013	TIE
mmmu_multiple_choice	847	0.788	0.803	+0.015	TIE
tombench	2470	0.795	0.791	-0.004	TIE
pac-bench	11274	0.630	0.634	+0.004	TIE
spatial-bench	162	0.671	0.722	+0.052	TIE
tau2_airline	50	0.640	0.380	-0.260	BASE_WIN
olympiadbench	70	0.782	0.686	-0.096	BASE_WIN_SUSPECT
hle	100	0.240	0.030	-0.210	BASE_WIN_CONFOUNDED
finben-edtsum	100	0.890	0.760	-0.130	BASE_WIN_WITH_SCORER_CAVEAT
space-apple	2920	0.868	0.815	-0.053	BASE_WIN
frontiermath	12	0.250	0.333	+0.083	unreliable_N
pact	2	1.000	1.000	0.000	unreliable_N

权威版本请查阅 reports/team_status.csv 和 reports/final_scores.csv（包含置信区间、AUROC、ECE、Brier及所有配对样本统计）。

注意事项（引用前必读）

等待重跑的项目： minerva_math（完整5000）、olympiadbench（完整674）、hle（48K上下文）、finben-edtsum（完整2000 + 评分器更换）。当前 .eval 文件反映的是部分/受混淆状态，请查看 reports/team_status.csv 的 status 列。
微调版截断： hle 中69/100的微调版样本在32K处达到最大token限制。非截断差距仍偏向基础版，但幅度小得多（-14.5个百分点而非-21个百分点）。微调版生成了非常长的推理链。
采样伪影： olympiadbench 微调版仅有70/674配对样本；在70个ID上的同一样本比较仅给出-1.4个百分点而非-9.6个百分点。
run1_canonical/ 中的烟雾测试数据： finben-edtsum 仅为2000中的100样本。mmmu_multiple_choice（n=100烟雾测试）已被 run2_logprobs/mmmu_multiple_choice/ 完整版（847）取代——烟雾测试与完整版的符号相反。run1_canonical/ 中的 space-apple 是n=100烟雾测试，饱和在1.0；权威完整版（2920）位于 full_n/space_apple/（基础版0.868 / 微调版0.815）。
AUROC 可靠性： run2_logprobs/tombench（0.81 vs 0.79）是最强的 logprob 信号。finben_regulations 的 AUROC 仅基于53-60/254可解析样本——请勿引用。mmmu 的 AUROC 在 thinking-off 模式下接近随机。
评分器注意事项： financebench 评分器正确但微调版编造数字（114/124为真错误）。tau2_airline 为智能体评估，非多选题。bfcl 为工具调用模式，剥离了 logprobs，无AUROC。

来源信息

微调模型： 基于 Qwen3.5-27B 的内部 Gin-Rummy 微调
基础模型： Qwen3.5-27B（通过 OpenRouter / 直接供应商）
Inspect AI 版本： 见各 .eval 文件的元数据
硬件： B200（多数运行）+ A100（space-apple 微调版侧）
上传时间： 2026-04-24，由 Alex-GSL 上传

搜集汇总

数据集介绍

构建方式

在大型语言模型的性能评估领域，微调与基座模型的对比研究常因基准测试的片面性而缺乏全面审计依据。为此，该数据集以在Gin-Rummy游戏数据上微调的Qwen3.5-27B模型与原始Qwen3.5-27B基座模型为比较对象，系统采集了Inspect AI框架下完整的.eval日志文件。数据构建遵循分层组织原则：核心对比层（run1_canonical）收录了15个基准测试的“思考开启”模式日志，并分别存放微调与基座模型的评估结果；logprobs层（run2_logprobs）针对三个可计算AUROC的多选题基准测试，在“思考关闭”模式下额外捕获了逐token对数概率；补充层（full_n）收纳了未纳入核心层的完整样本复现结果。此外，数据集中还整合了汇总分数CSV、以基准为单位的审计明细CSV以及多项统计指标，形成了可审计、可复现的对比评估体系。

特点

该数据集最显著的特点在于其多维度的可审计性与透明性。每个.eval文件不仅包含样本级别的预测结果与得分，还记录了对数概率等细粒度推理信息，使得研究者能够深入追溯模型行为。数据集覆盖了数学推理（如MATH500、Minerva Math）、多项选择理解（如MMMU）、工具调用（如BFCL）、金融合规（如FinBen）以及空间推理等多种任务领域，共计20余项基准测试，广泛评估了模型在语义理解、符号计算、逻辑推理与代理能力上的表现。尤为重要的是，所有对比结果均附有详细的统计检验信息（如p值、效应量），并明确标注了数据局限性——包括样本截断、采样偏差、评分器缺陷等潜在干扰因素，有效防止了基于部分数据的误导性结论。

使用方法

研究者可通过Inspect AI的read_eval_log函数直接加载.eval文件以获取样本级评估详情，包括.top-line统计与逐样本的预测-标签对。对于需要深入分析模型置信度的研究，run2_logprobs目录下的文件支持逐token对数概率提取，便于进行AUROC、ECE、Brier分数等校准度与判别力指标的计算。全量分数汇总表位于reports目录下的CSV文件中，其中final_scores.csv提供了置信区间、AUROC与配对样本统计的权威主表。在引用具体结果时，建议参照team_status.csv中的审计状态列，以识别待复现或存在置信度问题的基准测试。此外，audit目录下的明细CSV可用于分析模型错误类型（如真正错误与解析错误），从而支撑更可靠的性能归因研究。

背景与挑战

背景概述

在大型语言模型（LLM）能力评估领域，微调策略的有效性验证长期依赖于有限基准与浅层统计指标，亟需系统化的细粒度审计框架。GSL Benchmark Logs数据集由GoodStartLabs团队于2026年4月创建，聚焦于比较经过金拉米纸牌游戏（Gin-Rummy）任务微调的Qwen3.5-27B模型与其基础版本在15项多样化基准上的表现。该数据集通过Inspect AI评估框架捕获逐样本预测、逐样本分数及词级对数概率，构建了包含完整评估日志、分数板CSV及审计明细的透明化资产仓库。其核心研究问题在于揭示领域特定微调对通用能力的跨任务迁移效应与潜在退化风险，为模型对齐研究提供了从性能增量到行为退化的全景式定量证据。该数据集的影响力体现在其作为开放式审计工坊的范式创新，使研究者得以深入检验微调的因果效应，而非满足于宏观分数对比。

当前挑战

该数据集所面对的挑战首先源于领域问题的复杂性：微调通常旨在提升特定任务表现，但可能损害模型在算术推理、工具调用或时序分析等异质任务上的泛化能力，如tau2_airline与olympiadbench中观察到的显著性能退化。构建过程中则遭遇多重技术瓶颈：部分基准如hle因微调模型生成极长推理链而导致69%样本在32K标记处截断，引发效应量低估；采样偏差使olympiadbench仅70/674可用配对产生误导性信号；AUROC可靠性受限于可解析样本不足（如finben_regulations仅53-254例有效）；此外，烟雾测试与全量运行间的符号翻转（如mmmu_multiple_choice）暴露了小样本推断的不稳定性。这些挑战共同指向一个核心方法论问题——如何设计既能捕捉微小迁移增益，又能滤除解析伪迹与采样伪迹的鲁棒评估体系。

常用场景

经典使用场景

在自然语言处理与强化学习的交叉领域，GSL Benchmark Logs数据集为评估大型语言模型在特定领域微调后的性能提供了标准化的基准平台。该数据集聚焦于Gin-Rummy纸牌游戏策略场景，通过对比微调后的Qwen3.5-27B模型与基座模型在15项多元化基准测试中的表现，系统性地记录了模型在数学推理、金融文本分析、工具调用、空间推理等多个维度的能力变化。研究人员可以利用其提供的Inspect AI标准评估日志、逐样本预测分数及Token级对数概率，深入剖析微调策略对模型行为的影响模式。

实际应用

在工业级语言模型部署场景中，该数据集直接服务于模型版本迭代的质量控制与风险预警。当企业需要对基座模型进行特定任务微调时，可利用GSL Benchmark Logs提供的28项细粒度指标（包括AUROC、期望校准误差、布里尔分数及配对样本统计量）评估微调版本在关键业务场景中的综合表现。例如，financebench基准中发现的微调模型虚构数据问题，以及tau2_airline场景中微调导致的代理性能显著下降，都能为实际部署提供重要的安全红线参考，避免因领域特化而损害通用能力。

衍生相关工作

该数据集衍生了一系列探究微调边界条件与失效模式的经典工作。其中，对HLE基准中微调模型长序列截断现象的研究催生了上下文窗口扩展技术的改进方案；olympiadbench的采样伪影分析推动了配对实验设计的规范化；基于AUROC的模型区分能力分析，特别是在tombench基准中观察到的0.81对数概率信号，为无监督模型检测方法提供了新的验证工具。此外，数据集记录的数学推理基准（minerva_math）微调增益，直接激发了后续关于策略游戏数据增强对推理能力迁移效应的系统性探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集