D-ExpTracker__simple_test__v1

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__simple_test__v1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于Skill Factory工作流测试的简单实验数据集，包含了实验的元信息、训练数据及其元数据、超参数配置、日志记录和评估结果。

创建时间：

2025-07-29

原始信息汇总

数据集概述：TAUR-dev/D-ExpTracker__simple_test__v1

数据集描述

实验描述：Skill Factory工作流的简单测试实验。
开始时间：2025-07-29T15:50:39.897230

数据集配置

数据集包含以下配置：

1. 超参数配置

配置名称：hyperparameters__sft
特征：
- model_name_or_path (string)
- trust_remote_code (bool)
- stage (string)
- do_train (bool)
- finetuning_type (string)
- deepspeed (string)
- dataset (string)
- template (string)
- cutoff_len (int64)
- max_samples (int64)
- overwrite_cache (bool)
- preprocessing_num_workers (int64)
- output_dir (string)
- logging_steps (int64)
- save_steps (int64)
- plot_loss (bool)
- overwrite_output_dir (bool)
- per_device_train_batch_size (int64)
- gradient_accumulation_steps (int64)
- learning_rate (float64)
- num_train_epochs (int64)
- lr_scheduler_type (string)
- warmup_ratio (float64)
- weight_decay (float64)
- adam_beta1 (float64)
- adam_beta2 (float64)
- bf16 (bool)
- ddp_timeout (int64)
- gradient_checkpointing (bool)
- save_only_model (bool)
- enable_masked_ranges (bool)
数据量：
- 训练集：3个样本，1064字节
- 下载大小：13586字节
- 数据集大小：1064字节

2. 日志配置

配置名称：logs__evaluation_eval_0
- 特征：timestamp, end_timestamp, stage_name, stage_number, level, message, stdout_content, stderr_content, experiment_name, elapsed_time_seconds, stage_complete
- 数据量：2个样本，29581字节
- 下载大小：13573字节
- 数据集大小：29581字节
配置名称：logs__llamafactory_sft
- 特征：同上
- 数据量：48个样本，14068891字节
- 下载大小：3539977字节
- 数据集大小：14068891字节
配置名称：logs__verl_rl
- 特征：同上
- 数据量：4个样本，212293字节
- 下载大小：49218字节
- 数据集大小：212293字节

3. 元数据配置

配置名称：metadata
- 特征：experiment_name, start_time, description, base_org, stage_number, stage_type, status
- 数据量：98个样本，37116字节
- 下载大小：8349字节
- 数据集大小：37116字节

4. 训练数据配置

配置名称：training_data__sft
- 特征：
  - split (string)
  - example_idx (int64)
  - stage_name (string)
  - timestamp (string)
  - conversations (list: content, from, role, value)
  - mask_ranges (list: end, mask_label, name, start)
- 数据量：9270个样本，42289371字节
- 下载大小：16464720字节
- 数据集大小：42289371字节
配置名称：training_data__sft_metadata
- 特征：stage_name, stage_number, timestamp, original_dataset_id, dataset_type, usage, dataset_info
- 数据量：3个样本，990字节
- 下载大小：5839字节
- 数据集大小：990字节

使用示例

python from datasets import load_dataset

加载实验元数据

metadata = load_dataset(TAUR-dev/D-ExpTracker__simple_test__v1, experiment_metadata)

加载完整的训练数据集

sft_data = load_dataset(TAUR-dev/D-ExpTracker__simple_test__v1, training_data__sft) sft_metadata = load_dataset(TAUR-dev/D-ExpTracker__simple_test__v1, training_data__sft_metadata)

加载完整的配置

sft_hyperparams = load_dataset(TAUR-dev/D-ExpTracker__simple_test__v1, hyperparameters__sft)

加载阶段特定的日志

sft_logs = load_dataset(TAUR-dev/D-ExpTracker__simple_test__v1, logs__sft)

模型

sft模型：TAUR-dev/M-simple_test-sft

注册信息

所有模型自动注册在SkillFactory模型注册表中，包含：

完整的训练配置（超参数、数据集、方法）
实验谱系（链接回此跟踪数据集）
阶段特定的元数据（SFT vs RL训练细节）
结构化的输入数据引用（训练数据集和配置）

搜集汇总

数据集介绍

构建方式

在机器学习实验管理领域，D-ExpTracker__simple_test__v1数据集通过SkillFactory实验管理系统实现了全流程自动化构建。该系统采用分阶段实时采集策略，将实验过程划分为超参数配置、训练数据、日志记录和元数据四大模块，每个模块对应独立的配置文件。数据集在实验执行过程中采用即时上传机制，确保每个阶段完成后立即生成标准化数据记录，形成了包含3个训练样本的超参数配置、9270条对话数据的训练集以及多阶段日志的完整实验轨迹。

特点

该数据集最显著的特征在于其多维度的实验追踪能力，通过七个精细化配置模块全面覆盖实验生命周期。超参数模块详细记录了模型路径、训练类型、学习率等32项技术参数；训练数据模块不仅包含对话内容，还创新性地引入了掩码范围标注功能；日志模块采用分级记录体系，精确到毫秒级时间戳和标准输出流捕获。数据集采用结构化存储架构，每个配置独立封装且保持数据关联性，支持实验数据的完整溯源和跨阶段对比分析。

使用方法

研究人员可通过HuggingFace数据集库直接加载特定配置模块进行精细化分析。使用load_dataset函数指定数据集名称和配置名称即可访问相应数据，例如加载实验元数据使用'experiment_metadata'配置，训练数据使用'training_data__sft'配置。该数据集支持模块化使用模式，允许研究者单独分析超参数配置、训练对话数据或实验日志，也可进行跨模块关联分析。所有数据均采用标准表格格式存储，可直接用于实验复现、参数优化分析或训练过程可视化。

背景与挑战

背景概述

实验追踪数据集D-ExpTracker__simple_test__v1由TAUR-dev团队于2025年构建，旨在系统记录大语言模型训练过程中的多维度实验数据。该数据集针对监督微调（SFT）和强化学习（RL）等训练阶段，整合了超参数配置、训练日志、评估结果和元数据，为模型训练的可复现性与透明度研究提供了结构化数据支撑。其设计理念源于对机器学习实验管理规范化的迫切需求，通过标准化记录格式推动训练过程的系统化分析。

当前挑战

该数据集致力于解决大语言模型训练过程中实验追踪的碎片化问题，其核心挑战在于如何统一异构的训练日志格式与实时数据采集的完整性。构建过程中需克服多阶段实验数据的动态同步难题，包括超参数版本控制、分布式训练日志聚合以及评估指标的标准归一化。同时面临数据隐私与存储效率的平衡问题，特别是在处理大规模对话数据时需实现敏感信息的有效过滤与存储优化。

常用场景

实际应用

在实际工业应用中，该数据集支撑着端到端的模型开发流水线。企业研发团队利用其完整的实验记录功能，实现了从数据预处理、模型训练到性能评估的全流程管理。特别是在对话系统开发领域，该数据集帮助工程师精准追踪不同训练阶段的效果变化，优化模型在真实场景中的响应质量，大幅提升开发效率。

衍生相关工作

基于该数据集的标准化格式，研究社区衍生出多项重要工作。其中包括自动化实验分析工具链的开发、跨实验对比框架的构建以及模型性能预测系统的实现。这些衍生工作进一步扩展了实验追踪的应用边界，形成了完整的机器学习运维生态，为后续的Meta-learning研究和自动化机器学习系统提供了宝贵的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集