five

D-ExpTracker__TEST_L8B__v1

收藏
Hugging Face2025-11-21 更新2025-11-22 收录
下载链接:
https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__TEST_L8B__v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于Skill Factory工作流的简单测试实验,包含了问题、答案、任务配置、任务来源、提示、模型响应等特征,以及对应的训练和测试数据分割。
创建时间:
2025-11-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Experiment Tracker: TEST_L8B
  • 数据集地址: https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__TEST_L8B__v1
  • 实验描述: Simple test experiment for Skill Factory workflows
  • 开始时间: 2025-11-20T22:57:50.089863
  • 总阶段数: 1

配置信息

evals_eval_0配置

  • 特征字段:
    • question: 字符串类型
    • answer: 字符串类型
    • task_config: 字符串类型
    • task_source: 字符串类型
    • prompt: 列表类型,包含content和role字段
    • model_responses: 空列表
    • model_responses__eval_is_correct: 空列表
    • all_other_columns: 字符串类型
    • original_split: 字符串类型
    • metadata: 字符串类型
    • model_responses__best_of_n_atags: 字符串列表
    • model_responses__best_of_n_atags__finish_reason_length_flags: 布尔列表
    • model_responses__best_of_n_atags__length_partial_responses: 字符串列表
    • prompt__best_of_n_atags__metadata: 结构体类型,包含api_url、backend、chat_template_applied、generation_params、model_name、prompt等字段
    • model_responses__best_of_n_atags__metadata: 结构体类型,包含backend、model_name、n_responses字段
    • model_responses__best_of_n_atags__eval_is_correct: 布尔列表
    • model_responses__best_of_n_atags__eval_extracted_answers: 字符串列表
    • model_responses__best_of_n_atags__eval_extraction_metadata: 字符串类型
    • model_responses__best_of_n_atags__eval_evaluation_metadata: 字符串类型
    • model_responses__best_of_n_atags__internal_answers__eval_is_correct: 布尔列表的列表
    • model_responses__best_of_n_atags__internal_answers__eval_extracted_answers: 字符串列表的列表
    • model_responses__best_of_n_atags__internal_answers__eval_extraction_metadata: 字符串类型
    • model_responses__best_of_n_atags__internal_answers__eval_evaluation_metadata: 字符串类型
    • model_responses__best_of_n_atags__metrics: 结构体类型,包含flips_by、flips_total、num_correct、pass_at_n、percent_correct、total_responses字段
    • eval_date: 字符串类型
    • split: 字符串类型
    • revision_name: 字符串类型
    • model_path: 字符串类型
    • checkpoint_step: 整型
    • stage_name: 字符串类型
    • stage_number: 整型
    • timestamp: 字符串类型
    • eval_repo_id: 字符串类型
  • 数据分割:
    • test分割: 1000个样本,74,915,934字节
  • 下载大小: 13,482,689字节
  • 数据集大小: 74,915,934字节

logs__evaluation_eval_0配置

  • 特征字段:
    • timestamp: 字符串类型
    • end_timestamp: 字符串类型
    • stage_name: 字符串类型
    • stage_number: 整型
    • level: 字符串类型
    • message: 字符串类型
    • stdout_content: 字符串类型
    • stderr_content: 字符串类型
    • experiment_name: 字符串类型
    • elapsed_time_seconds: 浮点型
    • stage_complete: 布尔型
  • 数据分割:
    • train分割: 1个样本,7,316,410字节
  • 下载大小: 518,938字节
  • 数据集大小: 7,316,410字节

logs__evaluation_eval_rl配置

  • 特征字段: 与logs__evaluation_eval_0相同
  • 数据分割:
    • train分割: 1个样本,3,425字节
  • 下载大小: 19,467字节
  • 数据集大小: 3,425字节

metadata配置

  • 特征字段:
    • experiment_name: 字符串类型
    • start_time: 字符串类型
    • description: 字符串类型
    • base_org: 字符串类型
    • stage_number: 字符串类型
    • stage_type: 字符串类型
    • status: 字符串类型
  • 数据分割:
    • train分割: 6个样本,10,550字节
  • 下载大小: 9,452字节
  • 数据集大小: 10,550字节

使用方式

可通过datasets库加载特定配置: python from datasets import load_dataset metadata = load_dataset(TAUR-dev/D-ExpTracker__TEST_L8B__v1, experiment_metadata)

搜集汇总
数据集介绍
main_image_url
构建方式
在机器学习实验管理领域,D-ExpTracker__TEST_L8B__v1数据集通过结构化流水线实现全周期追踪。该数据集采用多配置架构,分别记录评估结果、实验日志与元数据,其中评估模块通过标准问答对形式采集模型响应,并集成参数配置、时间戳等实验环境信息。构建过程中采用即时上传机制,确保每个实验阶段完成后自动生成带标注的数据切片,形成完整的实验数据谱系。
特点
该数据集具备多维度的实验追踪特性,其评估配置包含问题-答案对、任务来源及模型生成内容等丰富字段,同时通过嵌套结构保存生成参数与评估指标。实验日志模块完整记录执行时间轴与错误流,元数据配置则提供实验阶段拓扑关系。所有数据均采用标准化字段命名,支持对模型训练、强化学习等不同阶段的横向对比分析,形成自解释的实验数据生态系统。
使用方法
研究者可通过HuggingFace数据集库按需加载特定配置,例如调用evals_eval_0配置获取带标注的评估结果,或访问metadata配置追溯实验演进过程。数据集支持分阶段数据提取,用户可独立获取训练超参数、模型响应质量指标或实验日志等模块。这种模块化设计便于进行实验复现、效果归因分析,以及跨实验的元研究,为机器学习工作流提供可验证的数据支撑。
背景与挑战
背景概述
在人工智能研究领域,实验追踪系统对于确保研究过程的可复现性与透明度具有关键意义。D-ExpTracker__TEST_L8B__v1数据集由TAUR开发团队于2025年创建,作为SkillFactory工作流的测试实验记录载体,其核心使命在于结构化存储机器学习实验全周期数据。该数据集通过整合训练配置、评估结果与元数据,构建了完整的实验溯源链条,为研究社区提供了标准化实验管理范式,显著提升了模型训练过程的可观测性与方法论传承效率。
当前挑战
该数据集致力于解决实验管理领域的数据离散化难题,其核心挑战在于如何实现多模态实验数据(如超参数、评估指标、生成式回答)的统一表征与动态关联。构建过程中需攻克实时数据流同步、异构结构嵌套(如对话提示序列与模型响应评估的层级映射)、以及大规模生成内容的质量标注等关键技术瓶颈,同时需确保实验元数据与具体训练阶段的全链路一致性。
常用场景
经典使用场景
在机器学习实验管理领域,D-ExpTracker__TEST_L8B__v1数据集作为SkillFactory工作流的测试实验载体,其核心应用场景聚焦于记录和监督模型训练全过程。通过结构化存储训练配置、超参数、评估结果及实验日志,该数据集为研究者提供了完整的实验复现框架,特别是在监督微调(SFT)与强化学习(RL)等关键阶段,能够系统追踪模型性能演变轨迹。
解决学术问题
该数据集有效应对了机器学习实验可复现性不足的学术难题。通过标准化记录实验元数据、模型响应评估指标及生成参数配置,解决了传统研究中因实验记录缺失导致的结果验证困难。其内置的评估标注体系(如eval_is_correct字段)为模型能力量化提供基准,显著提升了对比实验的严谨性与结论可靠性。
衍生相关工作
基于该数据集的实验范式,催生了系列标准化评估框架的演进。其提出的最佳响应筛选机制(best_of_n_atags)启发了多轮对话系统的评估标准制定,而结构化元数据记录方式则被后续研究拓展为跨平台实验管理工具。相关方法在模型注册表构建、实验血缘追踪等领域持续产生深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作