D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1
收藏Hugging Face2025-08-11 更新2025-08-12 收录
下载链接:
https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含关于不同技能工厂工作流程的实验跟踪信息。数据集配置包括训练数据、超参数、日志和评估结果等。每个配置都有特定的特征和数据文件。README文件还提供了如何使用Hugging Face数据集库加载特定配置和数据文件的说明。
创建时间:
2025-08-09
原始信息汇总
数据集概述:TAUR-dev/D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1
数据集描述
- 实验描述:Skill Factory工作流的简单测试实验。
- 开始时间:2025-08-11T06:23:41.453864
数据集配置
数据集包含以下配置:
1. 评估结果
-
配置名称:evals_eval_rl
- 特征:
- question: string
- answer: string
- task_config: string
- task_source: string
- prompt: list (content: string, role: string)
- model_responses: null
- model_responses__eval_is_correct: null
- all_other_columns: string
- original_split: string
- answer_index: int64
- answer_key: string
- choices: struct (label: list string, text: list string)
- difficulty: string
- domain: string
- evaluation_type: string
- expected_answer_format: string
- id: string
- metadata: string
- original_answer: string
- prompt__few_shot: list (content: string, role: string)
- source: string
- task_type: string
- variant: string
- model_responses__greedy: list string
- prompt__greedy__metadata: struct (api_url: string, backend: string, chat_template_applied: bool, generation_params: struct, model_name: string, prompt: list)
- model_responses__greedy__metadata: struct (backend: string, model_name: string, n_responses: int64)
- model_responses__greedy__eval_is_correct: list bool
- model_responses__greedy__eval_extracted_answers: list string
- model_responses__greedy__eval_extraction_metadata: struct
- model_responses__greedy__eval_evaluation_metadata: list
- model_responses__greedy__internal_answers__eval_is_correct: list list bool
- model_responses__greedy__internal_answers__eval_extracted_answers: list list string
- model_responses__greedy__internal_answers__eval_extraction_metadata: struct
- model_responses__greedy__internal_answers__eval_evaluation_metadata: list list
- eval_date: string
- split: string
- stage_name: string
- stage_number: int64
- timestamp: string
- eval_repo_id: string
- 分割:
- test: 7350个样本,28378810字节
- 下载大小:3218703字节
- 数据集大小:28378810字节
- 特征:
-
配置名称:evals_eval_sft
- 特征:与evals_eval_rl相同
- 分割:
- test: 2450个样本,11071783字节
- 下载大小:1648180字节
- 数据集大小:11071783字节
2. 超参数
- 配置名称:hyperparameters__sft
- 特征:
- model_name_or_path: string
- trust_remote_code: bool
- stage: string
- do_train: bool
- finetuning_type: string
- deepspeed: string
- dataset: string
- template: string
- cutoff_len: int64
- max_samples: int64
- overwrite_cache: bool
- preprocessing_num_workers: int64
- dataloader_num_workers: int64
- disable_tqdm: bool
- output_dir: string
- logging_steps: int64
- save_steps: int64
- plot_loss: bool
- overwrite_output_dir: bool
- per_device_train_batch_size: int64
- gradient_accumulation_steps: int64
- learning_rate: float64
- num_train_epochs: int64
- lr_scheduler_type: string
- warmup_ratio: float64
- weight_decay: float64
- adam_beta1: float64
- adam_beta2: float64
- bf16: bool
- ddp_timeout: int64
- gradient_checkpointing: bool
- save_only_model: bool
- enable_masked_ranges: bool
- sf_tracker_dataset_id: string
- sf_eval_before_training: bool
- sf_wandb_project: string
- sf_eval_steps: null
- run_name: string
- 分割:
- train: 1个样本,702字节
- 下载大小:17813字节
- 数据集大小:702字节
- 特征:
3. 日志
-
配置名称:logs__evaluation_eval_rl
- 特征:
- timestamp: string
- end_timestamp: string
- stage_name: string
- stage_number: int64
- level: string
- message: string
- stdout_content: string
- stderr_content: string
- experiment_name: string
- elapsed_time_seconds: float64
- stage_complete: bool
- 分割:
- train: 5个样本,156302106字节
- 下载大小:11887254字节
- 数据集大小:156302106字节
- 特征:
-
配置名称:logs__evaluation_eval_sft
- 特征:与logs__evaluation_eval_rl相同
- 分割:
- train: 1个样本,17730237字节
- 下载大小:1459291字节
- 数据集大小:17730237字节
-
配置名称:logs__llamafactory_sft
- 特征:与logs__evaluation_eval_rl相同
- 分割:
- train: 3个样本,973984字节
- 下载大小:238662字节
- 数据集大小:973984字节
4. 元数据
- 配置名称:metadata
- 特征:
- experiment_name: string
- start_time: string
- description: string
- base_org: string
- stage_number: string
- stage_type: string
- status: string
- 分割:
- train: 55个样本,15725字节
- 下载大小:7288字节
- 数据集大小:15725字节
- 特征:
5. 训练数据
-
配置名称:training_data__sft
- 特征:
- split: string
- example_idx: int64
- stage_name: string
- timestamp: string
- conversations: list (content: string, role: string)
- 分割:
- train: 3998个样本,13158791字节
- 下载大小:1716854字节
- 数据集大小:13158791字节
- 特征:
-
配置名称:training_data__sft_metadata
- 特征:
- stage_name: string
- stage_number: int64
- timestamp: string
- original_dataset_id: string
- dataset_type: string
- usage: string
- dataset_info: struct
- 分割:
- train: 1个样本,225字节
- 下载大小:5086字节
- 数据集大小:225字节
- 特征:
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,D-ExpTracker数据集通过系统化的实验跟踪框架构建而成。该数据集采用模块化设计,包含训练数据、超参数配置、评估结果和实验日志四大核心组件,各组件通过标准化接口实现数据交互。构建过程中采用分阶段数据采集策略,每个实验阶段均自动记录模型响应、评估指标及元数据,并通过HuggingFace平台实现即时数据同步与版本控制。
特点
该数据集最显著的特征在于其多维度的评估体系,不仅包含标准的问题-答案对,还完整记录了模型生成过程、答案提取元数据以及多层次评估结果。数据结构采用嵌套式设计,支持从prompt构造、模型响应到最终评估的全链路分析。特别值得注意的是,数据集提供了细粒度的错误分析维度,包括答案提取位置、等价性判断依据等关键信息,为模型诊断提供丰富依据。
使用方法
研究人员可通过HuggingFace数据集库分模块加载该数据集,针对不同研究目标选择相应配置。典型应用场景包括:使用'training_data__sft'分析监督微调数据分布,通过'hyperparameters__sft'复现训练配置,或基于'evals_eval_rl'开展强化学习模型评估。数据集支持端到端实验复现,所有组件均保持严格的时间戳对齐,确保实验可追溯性。对于评估分析,建议重点考察model_responses__greedy__eval_evaluation_metadata中的多维度评判指标。
背景与挑战
背景概述
D-ExpTracker__hardcoded_search_function__low_lr_sft5epochs__v1数据集由TAUR-dev团队于2025年8月创建,旨在为Skill Factory工作流提供实验追踪支持。该数据集专注于监督式微调(SFT)和强化学习(RL)模型的训练与评估过程,记录了包括训练数据、超参数配置、日志文件及评估结果在内的全流程实验数据。作为模型开发生命周期管理的重要工具,该数据集通过结构化存储实验元数据,为研究社区提供了模型可复现性和性能分析的基准框架,对促进机器学习实验标准化具有重要意义。
当前挑战
该数据集主要解决机器学习实验管理中的两大核心挑战:实验过程的可追溯性与模型性能的准确评估。在技术层面,数据集构建面临多模态数据整合的复杂性,包括如何统一存储不同阶段的异构数据(如结构化超参数与非结构化日志)。评估环节的挑战体现在答案提取与判定的可靠性上,需处理模型生成文本的模糊匹配、多步骤推理验证等难题。实验追踪系统还需平衡数据粒度和存储效率,确保海量训练日志的可检索性。
常用场景
经典使用场景
在自然语言处理领域,D-ExpTracker数据集为研究者提供了一个全面记录模型训练过程的框架。该数据集通过结构化存储训练数据、超参数配置和评估结果,使得监督式微调(SFT)和强化学习(RL)的实验过程具有可追溯性。其多模态数据组织方式特别适合分析低学习率下5个训练周期内模型性能的演变规律,为理解小规模训练的动态过程提供了实证基础。
解决学术问题
该数据集有效解决了机器学习实验复现性差的学术难题。通过标准化记录训练日志、模型响应和评估元数据,研究者能够精确追溯实验条件与结果间的因果关系。其包含的7350条带标注的评估样本,为分析模型在问答任务中的错误模式提供了丰富素材,特别有助于探究few-shot学习范式中提示工程对模型表现的影响机制。
衍生相关工作
基于该数据集衍生的研究工作主要集中在三个方向:一是开发新型实验跟踪工具,如扩展的元数据标注系统;二是构建自动化超参数优化算法,利用历史实验数据进行贝叶斯优化;三是创建可视化分析平台,通过交互式界面展示模型训练过程中的多维指标变化。这些工作共同推动了机器学习实验管理的标准化进程。
以上内容由遇见数据集搜集并总结生成



