D-ExpTracker__test_all_partssbatchv1

Hugging Face2025-08-11 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__test_all_parts__sbatch__v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集与Skill Factory实验相关，包括训练数据、超参数、日志、评估结果和元数据等多种配置。数据集设计用于NLP任务，包含问题、答案、提示和模型响应等特征。数据集还包含关于实验的元数据，包括开始时间和描述。

创建时间：

2025-08-09

原始信息汇总

数据集概述：TAUR-dev/D-ExpTracker__test_all_partssbatchv1

数据集描述

实验名称：Simple test experiment for Skill Factory workflows
开始时间：2025-08-11T12:32:36.799346
数据集地址：https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__test_all_parts__sbatch__v1

数据集配置

1. 评估结果

配置名称：evals_eval_0
- 特征：question, answer, task_config, task_source, prompt, model_responses, model_responses__eval_is_correct, all_other_columns, original_split, metadata, model_responses__greedy, prompt__greedy__metadata, model_responses__greedy__metadata, model_responses__greedy__eval_is_correct, model_responses__greedy__eval_extracted_answers, model_responses__greedy__eval_extraction_metadata, model_responses__greedy__eval_evaluation_metadata, model_responses__greedy__internal_answers__eval_is_correct, model_responses__greedy__internal_answers__eval_extracted_answers, model_responses__greedy__internal_answers__eval_extraction_metadata, model_responses__greedy__internal_answers__eval_evaluation_metadata, eval_date, split, stage_name, stage_number, timestamp, eval_repo_id
- 分割：test
  - 样本数：1750
  - 大小：7067244 bytes
配置名称：evals_eval_rl
- 特征：question, answer, task_config, task_source, prompt, model_responses, model_responses__eval_is_correct, all_other_columns, original_split, metadata, model_responses__greedy, model_responses__greedy__finish_reason_length_flags, model_responses__greedy__length_partial_responses, prompt__greedy__metadata, model_responses__greedy__metadata, model_responses__greedy__eval_is_correct, model_responses__greedy__eval_extracted_answers, model_responses__greedy__eval_extraction_metadata, model_responses__greedy__eval_evaluation_metadata, model_responses__greedy__internal_answers__eval_is_correct, model_responses__greedy__internal_answers__eval_extracted_answers, model_responses__greedy__internal_answers__eval_extraction_metadata, model_responses__greedy__internal_answers__eval_evaluation_metadata, model_responses__greedy__metrics, eval_date, split, revision_name, model_path, checkpoint_step, stage_name, stage_number, timestamp, eval_repo_id
- 分割：test
  - 样本数：500
  - 大小：2129704 bytes

2. 超参数

配置名称：hyperparameters__sft
- 特征：model_name_or_path, trust_remote_code, stage, do_train, finetuning_type, deepspeed, dataset, template, cutoff_len, max_samples, overwrite_cache, preprocessing_num_workers, dataloader_num_workers, disable_tqdm, output_dir, logging_steps, save_steps, plot_loss, overwrite_output_dir, per_device_train_batch_size, gradient_accumulation_steps, learning_rate, num_train_epochs, lr_scheduler_type, warmup_ratio, weight_decay, adam_beta1, adam_beta2, bf16, ddp_timeout, gradient_checkpointing, save_only_model, enable_masked_ranges, sf_tracker_dataset_id, sf_eval_before_training, sf_wandb_project, sf_eval_steps, run_name
- 分割：train
  - 样本数：9
  - 大小：4963 bytes

3. 日志

配置名称：logs__evaluation_eval_0
- 特征：timestamp, end_timestamp, stage_name, stage_number, level, message, stdout_content, stderr_content, experiment_name, elapsed_time_seconds, stage_complete
- 分割：train
  - 样本数：8
  - 大小：7498720 bytes
配置名称：logs__evaluation_eval_rl
- 特征：timestamp, end_timestamp, stage_name, stage_number, level, message, stdout_content, stderr_content, experiment_name, elapsed_time_seconds, stage_complete
- 分割：train
  - 样本数：5
  - 大小：212260878 bytes
配置名称：logs__llamafactory_sft
- 特征：timestamp, end_timestamp, stage_name, stage_number, level, message, stdout_content, stderr_content, experiment_name, elapsed_time_seconds, stage_complete
- 分割：train
  - 样本数：6
  - 大小：838778 bytes
配置名称：logs__verl_rl
- 特征：timestamp, end_timestamp, stage_name, stage_number, level, message, stdout_content, stderr_content, experiment_name, elapsed_time_seconds, stage_complete
- 分割：train
  - 样本数：7
  - 大小：521341 bytes

4. 元数据

配置名称：metadata
- 特征：experiment_name, start_time, description, base_org, stage_number, stage_type, status
- 分割：train
  - 样本数：51
  - 大小：63085 bytes

5. 训练数据

配置名称：training_data__sft
- 特征：split, example_idx, stage_name, timestamp, conversations
- 分割：train
  - 样本数：35523
  - 大小：99416385 bytes
配置名称：training_data__sft_metadata
- 特征：stage_name, stage_number, timestamp, original_dataset_id, dataset_type, usage, dataset_info
- 分割：train
  - 样本数：9
  - 大小：2394 bytes

相关模型

sft：https://huggingface.co/TAUR-dev/M-test_all_parts__sbatch-sft
rl：https://huggingface.co/TAUR-dev/M-test_all_parts__sbatch-rl

搜集汇总

数据集介绍

构建方式

在机器学习实验管理领域，D-ExpTracker__test_all_parts__sbatch__v1数据集采用模块化架构设计，通过分阶段采集的方式系统性地整合实验全流程数据。数据集构建过程中，每个实验阶段（包括监督微调、强化学习等）产生的训练数据、超参数配置、评估结果和日志记录都被结构化存储，形成相互关联的配置单元。技术实现上采用即时上传机制，确保实验数据的完整性和时效性，并通过HuggingFace平台的多配置架构实现不同类型数据的隔离存储与管理。

特点

该数据集最显著的特征在于其全景式记录能力，完整覆盖了机器学习实验生命周期的各个环节。数据集包含1750个测试样本和35523个训练样本，每个样本均附带详细的元数据标注，包括问题-答案对、任务配置、模型响应及其评估结果。特别值得注意的是，数据集采用多层嵌套结构存储模型生成内容，从原始prompt到最终评估结果形成完整证据链，并包含贪婪解码策略下的详细生成参数和评估指标，为模型行为分析提供丰富维度。

使用方法

研究人员可通过HuggingFace数据集库的配置加载机制，按需访问数据集的特定模块。典型使用场景包括：加载训练数据模块分析监督微调过程，调用超参数配置研究实验设置，或提取评估结果进行模型性能对比。数据集支持Python接口的灵活查询，用户可分别获取实验元数据、训练数据、超参数配置和评估结果等不同维度的信息。对于模型研发团队，该数据集可作为实验复现的基础，也可用于分析不同训练阶段对最终模型性能的影响。

背景与挑战

背景概述

D-ExpTracker__test_all_parts__sbatch__v1数据集由TAUR-dev团队于2025年8月创建，旨在为Skill Factory工作流提供实验追踪支持。该数据集作为机器学习实验管理系统的核心组成部分，记录了从监督微调（SFT）到强化学习（RL）的全流程实验数据，包括训练配置、评估结果和模型元数据。其创新性体现在实现了实验数据的即时上传与完整溯源，为研究团队提供了端到端的实验复现能力。数据集通过结构化存储超参数、对话样本和模型响应，推动了可解释AI研究的发展，特别是在模型行为分析与训练过程可视化领域具有重要参考价值。

当前挑战

该数据集主要应对两大技术挑战：在领域问题层面，需解决模型响应评估的标准化问题，包括答案提取的准确性判断（通过eval_is_correct字段）和多轮对话的连贯性评估（通过internal_answers结构）。在构建过程中，面临多模态日志数据的同步整合难题，如将文本对话（conversations列表）、训练参数（hyperparameters结构）与评估指标（metrics统计）进行时序对齐。此外，模型响应元数据（generation_params等）的异构性处理要求设计灵活的结构化存储方案，以兼容不同后端系统产生的多样化数据格式。

常用场景

经典使用场景

在自然语言处理领域，D-ExpTracker__test_all_parts__sbatch__v1数据集被广泛用于模型训练与评估的实验跟踪。该数据集通过记录实验的各个阶段，包括超参数配置、训练数据、日志和评估结果，为研究人员提供了一个全面的实验管理框架。其结构化设计使得模型训练过程的可追溯性和可复现性得到显著提升，成为机器学习工作流中不可或缺的工具。

解决学术问题

该数据集有效解决了机器学习实验中常见的可复现性和实验管理问题。通过整合实验的各个关键要素，如超参数、训练数据和评估结果，研究人员能够系统地分析不同实验配置对模型性能的影响。这种端到端的实验跟踪机制为模型优化和比较研究提供了可靠的数据支持，推动了机器学习方法的科学化发展。

衍生相关工作

围绕该数据集，学术界和工业界已经发展出多种相关研究。其中包括实验管理系统的优化、自动化机器学习流程的开发，以及基于实验数据的元学习研究。这些工作充分利用了数据集提供的结构化信息，推动了机器学习实验方法论的进步，并为后续研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

D-ExpTracker__test_all_parts__sbatch__v1

数据集概述：TAUR-dev/D-ExpTracker__test_all_parts__sbatch__v1