D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1

Hugging Face2025-08-11 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含关于不同技能工厂工作流程的实验跟踪信息。数据集配置包括训练数据、超参数、日志和评估结果等。每个配置都有特定的特征和数据文件。README文件还提供了如何使用Hugging Face数据集库加载特定配置和数据文件的说明。

创建时间：

2025-08-09

原始信息汇总

数据集概述：TAUR-dev/D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1

数据集描述

实验描述：Skill Factory工作流的简单测试实验。
开始时间：2025-08-11T06:23:41.453864

数据集配置

数据集包含以下配置：

1. 评估结果

配置名称：evals_eval_rl
- 特征：
  - question: string
  - answer: string
  - task_config: string
  - task_source: string
  - prompt: list (content: string, role: string)
  - model_responses: null
  - model_responses__eval_is_correct: null
  - all_other_columns: string
  - original_split: string
  - answer_index: int64
  - answer_key: string
  - choices: struct (label: list string, text: list string)
  - difficulty: string
  - domain: string
  - evaluation_type: string
  - expected_answer_format: string
  - id: string
  - metadata: string
  - original_answer: string
  - prompt__few_shot: list (content: string, role: string)
  - source: string
  - task_type: string
  - variant: string
  - model_responses__greedy: list string
  - prompt__greedy__metadata: struct (api_url: string, backend: string, chat_template_applied: bool, generation_params: struct, model_name: string, prompt: list)
  - model_responses__greedy__metadata: struct (backend: string, model_name: string, n_responses: int64)
  - model_responses__greedy__eval_is_correct: list bool
  - model_responses__greedy__eval_extracted_answers: list string
  - model_responses__greedy__eval_extraction_metadata: struct
  - model_responses__greedy__eval_evaluation_metadata: list
  - model_responses__greedy__internal_answers__eval_is_correct: list list bool
  - model_responses__greedy__internal_answers__eval_extracted_answers: list list string
  - model_responses__greedy__internal_answers__eval_extraction_metadata: struct
  - model_responses__greedy__internal_answers__eval_evaluation_metadata: list list
  - eval_date: string
  - split: string
  - stage_name: string
  - stage_number: int64
  - timestamp: string
  - eval_repo_id: string
- 分割：
  - test: 7350个样本，28378810字节
- 下载大小：3218703字节
- 数据集大小：28378810字节
配置名称：evals_eval_sft
- 特征：与evals_eval_rl相同
- 分割：
  - test: 2450个样本，11071783字节
- 下载大小：1648180字节
- 数据集大小：11071783字节

2. 超参数

配置名称：hyperparameters__sft
- 特征：
  - model_name_or_path: string
  - trust_remote_code: bool
  - stage: string
  - do_train: bool
  - finetuning_type: string
  - deepspeed: string
  - dataset: string
  - template: string
  - cutoff_len: int64
  - max_samples: int64
  - overwrite_cache: bool
  - preprocessing_num_workers: int64
  - dataloader_num_workers: int64
  - disable_tqdm: bool
  - output_dir: string
  - logging_steps: int64
  - save_steps: int64
  - plot_loss: bool
  - overwrite_output_dir: bool
  - per_device_train_batch_size: int64
  - gradient_accumulation_steps: int64
  - learning_rate: float64
  - num_train_epochs: int64
  - lr_scheduler_type: string
  - warmup_ratio: float64
  - weight_decay: float64
  - adam_beta1: float64
  - adam_beta2: float64
  - bf16: bool
  - ddp_timeout: int64
  - gradient_checkpointing: bool
  - save_only_model: bool
  - enable_masked_ranges: bool
  - sf_tracker_dataset_id: string
  - sf_eval_before_training: bool
  - sf_wandb_project: string
  - sf_eval_steps: null
  - run_name: string
- 分割：
  - train: 1个样本，702字节
- 下载大小：17813字节
- 数据集大小：702字节

3. 日志

配置名称：logs__evaluation_eval_rl
- 特征：
  - timestamp: string
  - end_timestamp: string
  - stage_name: string
  - stage_number: int64
  - level: string
  - message: string
  - stdout_content: string
  - stderr_content: string
  - experiment_name: string
  - elapsed_time_seconds: float64
  - stage_complete: bool
- 分割：
  - train: 5个样本，156302106字节
- 下载大小：11887254字节
- 数据集大小：156302106字节
配置名称：logs__evaluation_eval_sft
- 特征：与logs__evaluation_eval_rl相同
- 分割：
  - train: 1个样本，17730237字节
- 下载大小：1459291字节
- 数据集大小：17730237字节
配置名称：logs__llamafactory_sft
- 特征：与logs__evaluation_eval_rl相同
- 分割：
  - train: 3个样本，973984字节
- 下载大小：238662字节
- 数据集大小：973984字节

4. 元数据

配置名称：metadata
- 特征：
  - experiment_name: string
  - start_time: string
  - description: string
  - base_org: string
  - stage_number: string
  - stage_type: string
  - status: string
- 分割：
  - train: 55个样本，15725字节
- 下载大小：7288字节
- 数据集大小：15725字节

5. 训练数据

配置名称：training_data__sft
- 特征：
  - split: string
  - example_idx: int64
  - stage_name: string
  - timestamp: string
  - conversations: list (content: string, role: string)
- 分割：
  - train: 3998个样本，13158791字节
- 下载大小：1716854字节
- 数据集大小：13158791字节
配置名称：training_data__sft_metadata
- 特征：
  - stage_name: string
  - stage_number: int64
  - timestamp: string
  - original_dataset_id: string
  - dataset_type: string
  - usage: string
  - dataset_info: struct
- 分割：
  - train: 1个样本，225字节
- 下载大小：5086字节
- 数据集大小：225字节

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，D-ExpTracker数据集通过系统化的实验跟踪框架构建而成。该数据集采用模块化设计，包含训练数据、超参数配置、评估结果和实验日志四大核心组件，各组件通过标准化接口实现数据交互。构建过程中采用分阶段数据采集策略，每个实验阶段均自动记录模型响应、评估指标及元数据，并通过HuggingFace平台实现即时数据同步与版本控制。

特点

该数据集最显著的特征在于其多维度的评估体系，不仅包含标准的问题-答案对，还完整记录了模型生成过程、答案提取元数据以及多层次评估结果。数据结构采用嵌套式设计，支持从prompt构造、模型响应到最终评估的全链路分析。特别值得注意的是，数据集提供了细粒度的错误分析维度，包括答案提取位置、等价性判断依据等关键信息，为模型诊断提供丰富依据。

使用方法

研究人员可通过HuggingFace数据集库分模块加载该数据集，针对不同研究目标选择相应配置。典型应用场景包括：使用'training_data__sft'分析监督微调数据分布，通过'hyperparameters__sft'复现训练配置，或基于'evals_eval_rl'开展强化学习模型评估。数据集支持端到端实验复现，所有组件均保持严格的时间戳对齐，确保实验可追溯性。对于评估分析，建议重点考察model_responses__greedy__eval_evaluation_metadata中的多维度评判指标。

背景与挑战

背景概述

D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1数据集由TAUR-dev团队于2025年8月创建，旨在为Skill Factory工作流提供实验追踪支持。该数据集专注于监督式微调（SFT）和强化学习（RL）模型的训练与评估过程，记录了包括训练数据、超参数配置、日志文件及评估结果在内的全流程实验数据。作为模型开发生命周期管理的重要工具，该数据集通过结构化存储实验元数据，为研究社区提供了模型可复现性和性能分析的基准框架，对促进机器学习实验标准化具有重要意义。

当前挑战

该数据集主要解决机器学习实验管理中的两大核心挑战：实验过程的可追溯性与模型性能的准确评估。在技术层面，数据集构建面临多模态数据整合的复杂性，包括如何统一存储不同阶段的异构数据（如结构化超参数与非结构化日志）。评估环节的挑战体现在答案提取与判定的可靠性上，需处理模型生成文本的模糊匹配、多步骤推理验证等难题。实验追踪系统还需平衡数据粒度和存储效率，确保海量训练日志的可检索性。

常用场景

经典使用场景

在自然语言处理领域，D-ExpTracker数据集为研究者提供了一个全面记录模型训练过程的框架。该数据集通过结构化存储训练数据、超参数配置和评估结果，使得监督式微调(SFT)和强化学习(RL)的实验过程具有可追溯性。其多模态数据组织方式特别适合分析低学习率下5个训练周期内模型性能的演变规律，为理解小规模训练的动态过程提供了实证基础。

解决学术问题

该数据集有效解决了机器学习实验复现性差的学术难题。通过标准化记录训练日志、模型响应和评估元数据，研究者能够精确追溯实验条件与结果间的因果关系。其包含的7350条带标注的评估样本，为分析模型在问答任务中的错误模式提供了丰富素材，特别有助于探究few-shot学习范式中提示工程对模型表现的影响机制。

衍生相关工作

基于该数据集衍生的研究工作主要集中在三个方向：一是开发新型实验跟踪工具，如扩展的元数据标注系统；二是构建自动化超参数优化算法，利用历史实验数据进行贝叶斯优化；三是创建可视化分析平台，通过交互式界面展示模型训练过程中的多维指标变化。这些工作共同推动了机器学习实验管理的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集