five

D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1

收藏
Hugging Face2025-08-11 更新2025-08-12 收录
下载链接:
https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含关于不同技能工厂工作流程的实验跟踪信息。数据集配置包括训练数据、超参数、日志和评估结果等。每个配置都有特定的特征和数据文件。README文件还提供了如何使用Hugging Face数据集库加载特定配置和数据文件的说明。
创建时间:
2025-08-09
原始信息汇总

数据集概述:TAUR-dev/D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1

数据集描述

  • 实验描述:Skill Factory工作流的简单测试实验。
  • 开始时间:2025-08-11T06:23:41.453864

数据集配置

数据集包含以下配置:

1. 评估结果

  • 配置名称:evals_eval_rl

    • 特征
      • question: string
      • answer: string
      • task_config: string
      • task_source: string
      • prompt: list (content: string, role: string)
      • model_responses: null
      • model_responses__eval_is_correct: null
      • all_other_columns: string
      • original_split: string
      • answer_index: int64
      • answer_key: string
      • choices: struct (label: list string, text: list string)
      • difficulty: string
      • domain: string
      • evaluation_type: string
      • expected_answer_format: string
      • id: string
      • metadata: string
      • original_answer: string
      • prompt__few_shot: list (content: string, role: string)
      • source: string
      • task_type: string
      • variant: string
      • model_responses__greedy: list string
      • prompt__greedy__metadata: struct (api_url: string, backend: string, chat_template_applied: bool, generation_params: struct, model_name: string, prompt: list)
      • model_responses__greedy__metadata: struct (backend: string, model_name: string, n_responses: int64)
      • model_responses__greedy__eval_is_correct: list bool
      • model_responses__greedy__eval_extracted_answers: list string
      • model_responses__greedy__eval_extraction_metadata: struct
      • model_responses__greedy__eval_evaluation_metadata: list
      • model_responses__greedy__internal_answers__eval_is_correct: list list bool
      • model_responses__greedy__internal_answers__eval_extracted_answers: list list string
      • model_responses__greedy__internal_answers__eval_extraction_metadata: struct
      • model_responses__greedy__internal_answers__eval_evaluation_metadata: list list
      • eval_date: string
      • split: string
      • stage_name: string
      • stage_number: int64
      • timestamp: string
      • eval_repo_id: string
    • 分割
      • test: 7350个样本,28378810字节
    • 下载大小:3218703字节
    • 数据集大小:28378810字节
  • 配置名称:evals_eval_sft

    • 特征:与evals_eval_rl相同
    • 分割
      • test: 2450个样本,11071783字节
    • 下载大小:1648180字节
    • 数据集大小:11071783字节

2. 超参数

  • 配置名称:hyperparameters__sft
    • 特征
      • model_name_or_path: string
      • trust_remote_code: bool
      • stage: string
      • do_train: bool
      • finetuning_type: string
      • deepspeed: string
      • dataset: string
      • template: string
      • cutoff_len: int64
      • max_samples: int64
      • overwrite_cache: bool
      • preprocessing_num_workers: int64
      • dataloader_num_workers: int64
      • disable_tqdm: bool
      • output_dir: string
      • logging_steps: int64
      • save_steps: int64
      • plot_loss: bool
      • overwrite_output_dir: bool
      • per_device_train_batch_size: int64
      • gradient_accumulation_steps: int64
      • learning_rate: float64
      • num_train_epochs: int64
      • lr_scheduler_type: string
      • warmup_ratio: float64
      • weight_decay: float64
      • adam_beta1: float64
      • adam_beta2: float64
      • bf16: bool
      • ddp_timeout: int64
      • gradient_checkpointing: bool
      • save_only_model: bool
      • enable_masked_ranges: bool
      • sf_tracker_dataset_id: string
      • sf_eval_before_training: bool
      • sf_wandb_project: string
      • sf_eval_steps: null
      • run_name: string
    • 分割
      • train: 1个样本,702字节
    • 下载大小:17813字节
    • 数据集大小:702字节

3. 日志

  • 配置名称:logs__evaluation_eval_rl

    • 特征
      • timestamp: string
      • end_timestamp: string
      • stage_name: string
      • stage_number: int64
      • level: string
      • message: string
      • stdout_content: string
      • stderr_content: string
      • experiment_name: string
      • elapsed_time_seconds: float64
      • stage_complete: bool
    • 分割
      • train: 5个样本,156302106字节
    • 下载大小:11887254字节
    • 数据集大小:156302106字节
  • 配置名称:logs__evaluation_eval_sft

    • 特征:与logs__evaluation_eval_rl相同
    • 分割
      • train: 1个样本,17730237字节
    • 下载大小:1459291字节
    • 数据集大小:17730237字节
  • 配置名称:logs__llamafactory_sft

    • 特征:与logs__evaluation_eval_rl相同
    • 分割
      • train: 3个样本,973984字节
    • 下载大小:238662字节
    • 数据集大小:973984字节

4. 元数据

  • 配置名称:metadata
    • 特征
      • experiment_name: string
      • start_time: string
      • description: string
      • base_org: string
      • stage_number: string
      • stage_type: string
      • status: string
    • 分割
      • train: 55个样本,15725字节
    • 下载大小:7288字节
    • 数据集大小:15725字节

5. 训练数据

  • 配置名称:training_data__sft

    • 特征
      • split: string
      • example_idx: int64
      • stage_name: string
      • timestamp: string
      • conversations: list (content: string, role: string)
    • 分割
      • train: 3998个样本,13158791字节
    • 下载大小:1716854字节
    • 数据集大小:13158791字节
  • 配置名称:training_data__sft_metadata

    • 特征
      • stage_name: string
      • stage_number: int64
      • timestamp: string
      • original_dataset_id: string
      • dataset_type: string
      • usage: string
      • dataset_info: struct
    • 分割
      • train: 1个样本,225字节
    • 下载大小:5086字节
    • 数据集大小:225字节
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,D-ExpTracker数据集通过系统化的实验跟踪框架构建而成。该数据集采用模块化设计,包含训练数据、超参数配置、评估结果和实验日志四大核心组件,各组件通过标准化接口实现数据交互。构建过程中采用分阶段数据采集策略,每个实验阶段均自动记录模型响应、评估指标及元数据,并通过HuggingFace平台实现即时数据同步与版本控制。
特点
该数据集最显著的特征在于其多维度的评估体系,不仅包含标准的问题-答案对,还完整记录了模型生成过程、答案提取元数据以及多层次评估结果。数据结构采用嵌套式设计,支持从prompt构造、模型响应到最终评估的全链路分析。特别值得注意的是,数据集提供了细粒度的错误分析维度,包括答案提取位置、等价性判断依据等关键信息,为模型诊断提供丰富依据。
使用方法
研究人员可通过HuggingFace数据集库分模块加载该数据集,针对不同研究目标选择相应配置。典型应用场景包括:使用'training_data__sft'分析监督微调数据分布,通过'hyperparameters__sft'复现训练配置,或基于'evals_eval_rl'开展强化学习模型评估。数据集支持端到端实验复现,所有组件均保持严格的时间戳对齐,确保实验可追溯性。对于评估分析,建议重点考察model_responses__greedy__eval_evaluation_metadata中的多维度评判指标。
背景与挑战
背景概述
D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1数据集由TAUR-dev团队于2025年8月创建,旨在为Skill Factory工作流提供实验追踪支持。该数据集专注于监督式微调(SFT)和强化学习(RL)模型的训练与评估过程,记录了包括训练数据、超参数配置、日志文件及评估结果在内的全流程实验数据。作为模型开发生命周期管理的重要工具,该数据集通过结构化存储实验元数据,为研究社区提供了模型可复现性和性能分析的基准框架,对促进机器学习实验标准化具有重要意义。
当前挑战
该数据集主要解决机器学习实验管理中的两大核心挑战:实验过程的可追溯性与模型性能的准确评估。在技术层面,数据集构建面临多模态数据整合的复杂性,包括如何统一存储不同阶段的异构数据(如结构化超参数与非结构化日志)。评估环节的挑战体现在答案提取与判定的可靠性上,需处理模型生成文本的模糊匹配、多步骤推理验证等难题。实验追踪系统还需平衡数据粒度和存储效率,确保海量训练日志的可检索性。
常用场景
经典使用场景
在自然语言处理领域,D-ExpTracker数据集为研究者提供了一个全面记录模型训练过程的框架。该数据集通过结构化存储训练数据、超参数配置和评估结果,使得监督式微调(SFT)和强化学习(RL)的实验过程具有可追溯性。其多模态数据组织方式特别适合分析低学习率下5个训练周期内模型性能的演变规律,为理解小规模训练的动态过程提供了实证基础。
解决学术问题
该数据集有效解决了机器学习实验复现性差的学术难题。通过标准化记录训练日志、模型响应和评估元数据,研究者能够精确追溯实验条件与结果间的因果关系。其包含的7350条带标注的评估样本,为分析模型在问答任务中的错误模式提供了丰富素材,特别有助于探究few-shot学习范式中提示工程对模型表现的影响机制。
衍生相关工作
基于该数据集衍生的研究工作主要集中在三个方向:一是开发新型实验跟踪工具,如扩展的元数据标注系统;二是构建自动化超参数优化算法,利用历史实验数据进行贝叶斯优化;三是创建可视化分析平台,通过交互式界面展示模型训练过程中的多维指标变化。这些工作共同推动了机器学习实验管理的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作