GSLBenchmark
收藏Hugging Face2026-04-30 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/GoodStartLabs/GSLBenchmark
下载链接
链接失效反馈官方服务:
资源简介:
GSL Benchmark数据集包含从GSL基准矩阵中整理和去重后的.eval日志文件。数据集仅包含来自规范原始清单中状态为verified或duplicate_resolved的行。数据集结构包括pristine_manifest.csv(完整的来源清单)、headline_scores.csv(每个模型和评估的得分)以及按基础模型和微调模型分组的评估日志文件。数据集共包含160条推广行,涵盖Qwen-Qwen3-8B的7个模型变体和Qwen-Qwen3.5-4B的3个模型变体。所有文件均从GoodStartLabs/gsl-benchmark-logs复制而来,并保留了原始内容。pristine_manifest.csv记录了每个文件的来源路径、运行时间戳和每行得分。用户可以使用Inspect-AI工具读取.eval文件。
The GSL Benchmark dataset contains deduplicated and organized `.eval` log files from the GSL benchmark matrix. The dataset only includes rows with a status of verified or duplicate_resolved from the canonical original manifest. The dataset structure includes `pristine_manifest.csv` (complete source manifest), `headline_scores.csv` (scores for each model and evaluation), and evaluation log files grouped by base model and fine-tuned model. The dataset contains a total of 160 promotion rows, covering 7 model variants of `Qwen-Qwen3-8B` and 3 model variants of `Qwen-Qwen3.5-4B`. All files are copied from `GoodStartLabs/gsl-benchmark-logs` with original content preserved. `pristine_manifest.csv` records the source path, run timestamp, and per-row scores for each file. Users can read `.eval` files using the Inspect-AI tool.
创建时间:
2026-04-30
原始信息汇总
数据集概述:GSL Benchmark — Pristine Artifacts
本数据集是GSL基准测试矩阵中经过筛选、去重后的 .eval 日志文件集合,仅包含状态为 verified 或 duplicate_resolved 的数据行。
数据集结构
数据集的目录布局如下:
GSLBenchmark/ ├── pristine_manifest.csv # 完整的来源清单文件 ├── headline_scores.csv # 每个(模型,评估)组合的分数 ├── README.md └── <基础模型标识>/ ├── _base/ # 基础运行的评估日志 │ └── <评估任务>/ # 包含 *.eval, DONE.json 等文件 └── <微调模型标识>/ └── <评估任务>/
数据规模与覆盖范围
- 总数据行数:160 条
- 模型系列:
Qwen-Qwen3-8B/— 包含 7 个模型变体Qwen-Qwen3.5-4B/— 包含 3 个模型变体
数据来源
所有文件均从 GoodStartLabs/gsl-benchmark-logs 仓库复制而来,文件内容保持原样。pristine_manifest.csv 文件记录了每个数据片段的精确来源路径、运行时间戳以及每行的评分。
如何读取 .eval 文件
推荐使用 Inspect-AI 库读取:
python from inspect_ai.log import read_eval_log log = read_eval_log(path/to/file.eval) print(log.results.scores[0].metrics)
搜集汇总
数据集介绍

构建方式
GSLBenchmark数据集源自GoodStartLabs/gsl-benchmark-logs仓库,经过精心筛选与去重处理,仅保留状态为'verified'或'duplicate_resolved'的规范记录。数据集以目录结构组织,包含完整的来源清单文件pristine_manifest.csv,记录了每条数据的原始路径、运行时间戳及评分,确保每一条工件的可追溯性与可靠性。
特点
该数据集涵盖160条高置信度的评测记录,集中覆盖Qwen-Qwen3-8B的7种模型变体与Qwen-Qwen3.5-4B的3种模型变体,构成一个紧凑但高质量的基准测试矩阵。数据集仅收录经过核验的干净数据,避免了重复和不可靠样本的干扰,适合用于大语言模型能力的精确评估与对比。
使用方法
用户可通过Inspect-AI框架便捷地读取.eval格式的日志文件,调用read_eval_log函数即可加载评分与指标。数据集附带了headline_scores.csv汇总文件,提供每个模型在各项评测上的单一得分,便于快速分析。进阶使用者亦可结合pristine_manifest.csv中的元信息进行数据溯源与自定义筛选。
背景与挑战
背景概述
GSLBenchmark数据集由GoodStartLabs团队于2026年创建,旨在为大规模语言模型的评估提供标准化、高纯净度的评测基准。该数据集聚焦于模型在多样化任务上的泛化能力与鲁棒性,其核心研究问题在于如何通过严格的数据去重与溯源机制,确保评测结果的可重复性与可信度。通过收录Qwen系列等先进模型的160条已验证评测记录,GSLBenchmark为自然语言处理领域中的模型对比与性能分析提供了可靠的数据支撑,推动了评估方法的规范化进程。
当前挑战
GSLBenchmark所解决的领域挑战在于当前模型评估中普遍存在的数据污染与结果不可复现问题,其通过建立精炼数据清单与状态验证机制,确保每条评测记录均来自可追溯的纯净源头。构建过程中,团队面临了多重挑战:一是从海量日志中筛选出状态为'verified'或'duplicate_resolved'的有效条目,需设计高效的自动化去重与审核流程;二是保持多模型变体(如Qwen3-8B的7个变种)之间的评测一致性,避免因版本差异导致的指标偏差;三是确保. eval文件格式的标准化存储与可解析性,以支撑Inspect-AI等工具的便捷调用。
常用场景
经典使用场景
GSLBenchmark数据集是GSL基准测试矩阵中经过精心筛选与去重的纯净评估日志集合,专为评估基础模型与微调变体在统一任务框架下的表现而设计。其典型使用场景涵盖多模型多评估维度的标准化性能度量,研究者可借助其提供的`pristine_manifest.csv`溯源清单与`headline_scores.csv`评分概览,快速对Qwen-Qwen3-8B、Qwen-Qwen3.5-4B等模型系列进行横向对比分析,探索不同规模与微调策略对模型能力的影响。
衍生相关工作
围绕GSLBenchmark衍生了一系列重要工作,包括基于其纯净日志开发的模型评分预测器与性能趋势分析工具,用于自动推断模型在未知任务上的潜在表现。同时,该数据集催生了评估结果的可视化框架,支持交互式探索多模型多评估分数。部分研究还利用其日志结构设计出更高效的评估采样策略,通过分析`DONE.json`等元数据减少冗余计算,间接推动了评估领域从粗粒度基准测试向精细化、低成本方向的发展。
数据集最近研究
最新研究方向
GSLBenchmark作为面向基础模型与微调变体的标准化评估基准,近期研究聚焦于大规模语言模型在结构化任务中的泛化能力与可重复性验证。该数据集通过精心策划的、经过去重处理的原始评估日志,为Qwen系列等主流模型提供了160条高质量评测样本,覆盖多种模型变体。当前前沿方向集中于利用该基准揭示模型在不同微调策略下的性能差异,并推动评估流程的透明化与可靠性建设——例如通过精确记录每个工件的来源路径与时间戳,确保评估结果的溯源性。此举呼应了大模型领域对可复现AI的迫切需求,为模型迭代提供了可横向对比的标杆,对提升模型部署前的稳健性评估具有实质性推动作用。
以上内容由遇见数据集搜集并总结生成



