D-ExpTracker__test_all_parts__v1

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__test_all_parts__v1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含不同模型和实验的训练、评估和日志数据的集合。数据集结构化，包含特定配置的特征，如'问题'、'答案'、'任务配置'、'任务来源'、'提示'和'模型响应'。每个配置都有其自己的特征和数据分割，如'测试'、'训练'和'评估'。README还提供了如何使用HuggingFace数据集库加载特定配置和数据的说明。数据集旨在跟踪实验、管理配置和评估模型性能。

This is a collection of training, evaluation, and logging data for various models and experiments. The dataset is structurally organized, with fields tailored to specific experimental configurations, including 'question', 'answer', 'task configuration', 'task source', 'prompt', and 'model response'. Each configuration features its own unique characteristics and predefined data splits, such as 'train', 'test', and 'eval' splits. The accompanying README provides detailed instructions on loading specific configurations and datasets via the Hugging Face Datasets library. This dataset is intended to support experiment tracking, configuration management, and model performance evaluation.

创建时间：

2025-08-05

原始信息汇总

数据集概述：TAUR-dev/D-ExpTracker__test_all_parts__v1

数据集描述

实验描述：Skill Factory工作流的简单测试实验。
开始时间：2025-08-07T01:14:09.502568
总阶段数：2

数据集配置

数据集包含以下配置：

1. 评估结果 (`evals_eval_0`)

特征：
- question (string)
- answer (string)
- task_config (string)
- task_source (string)
- prompt (list: content, role)
- model_responses (sequence: null)
- model_responses__eval_is_correct (sequence: null)
- all_other_columns (string)
- original_split (string)
- metadata (string)
- model_responses__greedy (sequence: string)
- prompt__greedy__metadata (struct: api_url, backend, chat_template_applied, generation_params, model_name, prompt)
- model_responses__greedy__metadata (struct: backend, model_name, n_responses)
- model_responses__greedy__eval_is_correct (sequence: bool)
- model_responses__greedy__eval_extracted_answers (sequence: string)
- model_responses__greedy__eval_extraction_metadata (struct: all_spans_summary, empty_response, extraction_method, final_span_info, is_final_of_multiple, judge_model, question_context, total_spans, total_spans_found)
- model_responses__greedy__eval_evaluation_metadata (list: answer_block, error, final_answer, is_correct, method, reason)
- model_responses__greedy__internal_answers__eval_is_correct (sequence: sequence: bool)
- model_responses__greedy__internal_answers__eval_extracted_answers (sequence: sequence: string)
- model_responses__greedy__internal_answers__eval_extraction_metadata (struct: empty_response, extraction_method, internal_spans_detailed, is_final_of_multiple, judge_model, question_context, span_positions, total_internal_spans, total_spans)
- model_responses__greedy__internal_answers__eval_evaluation_metadata (list: list: answer_block, error, final_answer, is_correct)
- eval_date (string)
- split (string)
- stage_name (string)
- stage_number (int64)
- timestamp (string)
- eval_repo_id (string)
数据量：
- 测试集：1,250个样本，5,063,483字节

2. 超参数 (`hyperparameters__sft`)

特征：
- model_name_or_path (string)
- trust_remote_code (bool)
- stage (string)
- do_train (bool)
- finetuning_type (string)
- deepspeed (string)
- dataset (string)
- template (string)
- cutoff_len (int64)
- max_samples (int64)
- overwrite_cache (bool)
- preprocessing_num_workers (int64)
- output_dir (string)
- logging_steps (int64)
- save_steps (int64)
- plot_loss (bool)
- overwrite_output_dir (bool)
- per_device_train_batch_size (int64)
- gradient_accumulation_steps (int64)
- learning_rate (float64)
- num_train_epochs (int64)
- lr_scheduler_type (string)
- warmup_ratio (float64)
- weight_decay (float64)
- adam_beta1 (float64)
- adam_beta2 (float64)
- bf16 (bool)
- ddp_timeout (int64)
- gradient_checkpointing (bool)
- save_only_model (bool)
- enable_masked_ranges (bool)
- do_eval (bool)
- eval_strategy (string)
- eval_steps (int64)
- eval_dataset (string)
- per_device_eval_batch_size (int64)
- compute_custom_metrics (bool)
数据量：
- 训练集：6个样本，2,797字节

3. 日志 (`logs__evaluation_eval_0`, `logs__evaluation_eval_sft`, `logs__llamafactory_sft`, `logs__verl_rl`)

特征：
- timestamp (string)
- end_timestamp (string)
- stage_name (string)
- stage_number (int64)
- level (string)
- message (string)
- stdout_content (string)
- stderr_content (string)
- experiment_name (string)
- elapsed_time_seconds (float64)
- stage_complete (bool)
数据量：
- logs__evaluation_eval_0：5个样本，7,481,510字节
- logs__evaluation_eval_sft：1个样本，505字节
- logs__llamafactory_sft：46个样本，3,560,102字节
- logs__verl_rl：20个样本，1,478,633字节

4. 元数据 (`metadata`)

特征：
- experiment_name (string)
- start_time (string)
- description (string)
- base_org (string)
- stage_number (string)
- stage_type (string)
- status (string)
数据量：
- 训练集：168个样本，90,935字节

5. 训练数据 (`training_data__sft`)

特征：
- split (string)
- example_idx (int64)
- stage_name (string)
- timestamp (string)
- conversations (list: content, role)
数据量：
- 训练集：29,629个样本，83,282,073字节

6. 训练数据元数据 (`training_data__sft_metadata`)

特征：
- stage_name (string)
- stage_number (int64)
- timestamp (string)
- original_dataset_id (string)
- dataset_type (string)
- usage (string)
- dataset_info (struct: features, num_examples, splits)
数据量：
- 训练集：8个样本，2,284字节

模型

SFT模型：TAUR-dev/M-test_all_parts-sft

使用示例

python from datasets import load_dataset

加载实验元数据

metadata = load_dataset(TAUR-dev/D-ExpTracker__test_all_parts__v1, metadata)

加载训练数据

sft_data = load_dataset(TAUR-dev/D-ExpTracker__test_all_parts__v1, training_data__sft)

加载超参数

sft_hyperparams = load_dataset(TAUR-dev/D-ExpTracker__test_all_parts__v1, hyperparameters__sft)

加载日志

sft_logs = load_dataset(TAUR-dev/D-ExpTracker__test_all_parts__v1, logs__llamafactory_sft)

加载评估结果

sft_eval_results = load_dataset(TAUR-dev/D-ExpTracker__test_all_parts__v1, evals_eval_0)

搜集汇总

数据集介绍

构建方式

D-ExpTracker__test_all_parts__v1数据集作为Skill Factory工作流的测试实验产物，其构建过程体现了严谨的实验设计理念。该数据集通过多阶段实验流程系统性地收集数据，包括监督微调（SFT）训练数据、超参数配置、阶段日志和评估结果等模块。采用即时上传机制确保每个阶段完成后立即固化数据，通过HuggingFace平台实现结构化存储，包含evals_eval_0、hyperparameters__sft等9个独立配置模块，形成完整的实验追踪体系。

特点

该数据集最显著的特点是实现了实验全生命周期的多维数据封装。其1250条测试样本包含问题-答案对、任务配置、模型响应及细粒度评估元数据，评估模块更创新性地整合了贪婪解码策略下的响应序列、答案抽取位置信息和基于跨度检测的评估轨迹。训练数据模块则完整保留了29629条对话样本的角色标注内容，配合超参数配置中的62项训练参数，为模型可解释性研究提供了丰富素材。

使用方法

研究者可通过模块化方式灵活调用该数据集的不同组件。使用HuggingFace的load_dataset函数，可分别加载实验元数据、训练数据集或评估结果等特定配置模块。例如加载SFT训练数据时，能够访问对话内容、角色标记和时间戳等结构化字段；调用评估模块则可深入分析模型响应正确率、答案抽取位置等评估指标。数据集各配置间通过实验名称、阶段编号等元数据字段自然关联，支持端到端的实验复现与分析。

背景与挑战

背景概述

D-ExpTracker__test_all_parts__v1数据集由TAUR-dev团队于2025年构建，旨在支持Skill Factory工作流的实验追踪与模型评估。该数据集作为实验管理系统的重要组成部分，专注于记录和监督机器学习模型在监督微调（SFT）和强化学习（RL）等不同训练阶段的完整生命周期。数据集通过结构化存储训练数据、超参数配置、评估结果和实验日志，为研究人员提供了端到端的实验复现性和结果可追溯性。其设计理念源于对机器学习实验透明性和可重复性的迫切需求，尤其在复杂工作流和多阶段训练场景中，该数据集通过标准化数据记录格式显著提升了实验管理的效率。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何精准评估模型在多阶段训练中的性能演变，特别是当监督微调与强化学习策略交织时，模型响应的一致性验证成为关键难题；在构建层面，需要解决异构数据（如结构化日志与非结构化模型输出）的统一表示问题，以及实时同步分布式训练产生的海量评估数据。技术难点包括保持评估标注与原始响应的精确对齐，以及处理不同训练阶段产生的动态超参数配置。此外，确保实验元数据与模型注册表之间的双向可追溯性，也对数据架构设计提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，D-ExpTracker__test_all_parts__v1数据集为研究者提供了一个全面的实验跟踪框架。该数据集通过整合训练数据、超参数配置、评估结果和日志信息，为模型训练过程的复现和比较提供了标准化平台。尤其在监督微调（SFT）和强化学习（RL）实验中，其结构化存储方案使得不同阶段的实验数据能够系统化归档，为算法迭代提供了可靠基准。

衍生相关工作

基于该数据集的范式，衍生出多项创新性研究。包括自动化超参数搜索算法的优化、跨实验的元学习分析框架构建，以及实验数据可视化工具的开发。其提出的结构化日志标准已被多个开源项目采纳，推动了机器学习实验管理领域的标准化进程。

数据集最近研究