D-ExpTracker__test_metrics_skill_analysis__v1

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于技能工厂工作流程的简单测试实验数据集。数据集包含训练数据、超参数配置、日志记录、评估结果和元数据。数据集分为不同的配置，每个配置都有详细的特征和数据类型描述。数据集的用途包括加载特定配置、训练数据、超参数、日志和评估结果。

创建时间：

2025-08-09

原始信息汇总

数据集概述：TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1

数据集描述

实验描述：用于Skill Factory工作流的简单测试实验。
开始时间：2025-08-08T23:27:48.242615
数据集地址：https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1

数据集配置

数据集包含以下配置：

1. evals_eval_sft

特征：
- question（问题）
- answer（答案）
- task_config（任务配置）
- task_source（任务来源）
- prompt（提示）
- model_responses（模型响应）
- model_responses__eval_is_correct（模型响应评估是否正确）
- all_other_columns（其他列）
- original_split（原始分割）
- answer_index（答案索引）
- answer_key（答案键）
- choices（选择）
- difficulty（难度）
- domain（领域）
- evaluation_type（评估类型）
- expected_answer_format（期望的答案格式）
- id（ID）
- metadata（元数据）
- original_answer（原始答案）
- prompt__few_shot（少量提示）
- source（来源）
- task_type（任务类型）
- variant（变体）
- model_responses__best_of_n（最佳N个模型响应）
- prompt__best_of_n__metadata（最佳N个提示元数据）
- model_responses__best_of_n__metadata（最佳N个模型响应元数据）
- model_responses__greedy（贪婪模型响应）
- prompt__greedy__metadata（贪婪提示元数据）
- model_responses__greedy__metadata（贪婪模型响应元数据）
- model_responses__best_of_n__eval_is_correct（最佳N个模型响应评估是否正确）
- model_responses__best_of_n__eval_extracted_answers（最佳N个模型响应提取的答案）
- model_responses__best_of_n__eval_extraction_metadata（最佳N个模型响应提取元数据）
- model_responses__best_of_n__eval_evaluation_metadata（最佳N个模型响应评估元数据）
- model_responses__best_of_n__internal_answers__eval_is_correct（最佳N个模型响应内部答案评估是否正确）
- model_responses__best_of_n__internal_answers__eval_extracted_answers（最佳N个模型响应内部答案提取的答案）
- model_responses__best_of_n__internal_answers__eval_extraction_metadata（最佳N个模型响应内部答案提取元数据）
- model_responses__best_of_n__internal_answers__eval_evaluation_metadata（最佳N个模型响应内部答案评估元数据）
- model_responses__best_of_n__metrics（最佳N个模型响应指标）
- model_responses__greedy__eval_is_correct（贪婪模型响应评估是否正确）
- model_responses__greedy__eval_extracted_answers（贪婪模型响应提取的答案）
- model_responses__greedy__eval_extraction_metadata（贪婪模型响应提取元数据）
- model_responses__greedy__eval_evaluation_metadata（贪婪模型响应评估元数据）
- model_responses__greedy__internal_answers__eval_is_correct（贪婪模型响应内部答案评估是否正确）
- model_responses__greedy__internal_answers__eval_extracted_answers（贪婪模型响应内部答案提取的答案）
- model_responses__greedy__internal_answers__eval_extraction_metadata（贪婪模型响应内部答案提取元数据）
- model_responses__greedy__internal_answers__eval_evaluation_metadata（贪婪模型响应内部答案评估元数据）
- model_responses__greedy__metrics（贪婪模型响应指标）
- eval_date（评估日期）
- split（分割）
- revision_name（修订名称）
- model_path（模型路径）
- checkpoint_step（检查点步骤）
- stage_name（阶段名称）
- stage_number（阶段编号）
- timestamp（时间戳）
- eval_repo_id（评估仓库ID）
分割：
- test（测试集）：16,884,587字节，1,500个示例
下载大小：4,856,910字节
数据集大小：16,884,587字节

2. hyperparameters__sft

特征：
- model_name_or_path（模型名称或路径）
- trust_remote_code（信任远程代码）
- stage（阶段）
- do_train（是否训练）
- finetuning_type（微调类型）
- deepspeed（深度速度）
- dataset（数据集）
- template（模板）
- cutoff_len（截断长度）
- max_samples（最大样本数）
- overwrite_cache（覆盖缓存）
- preprocessing_num_workers（预处理工作线程数）
- dataloader_num_workers（数据加载器工作线程数）
- disable_tqdm（禁用tqdm）
- output_dir（输出目录）
- logging_steps（日志步骤）
- save_steps（保存步骤）
- plot_loss（绘制损失）
- overwrite_output_dir（覆盖输出目录）
- per_device_train_batch_size（每个设备的训练批次大小）
- gradient_accumulation_steps（梯度累积步骤）
- learning_rate（学习率）
- num_train_epochs（训练周期数）
- lr_scheduler_type（学习率调度器类型）
- warmup_ratio（预热比例）
- weight_decay（权重衰减）
- adam_beta1（Adam Beta1）
- adam_beta2（Adam Beta2）
- bf16（BF16）
- ddp_timeout（DDP超时）
- gradient_checkpointing（梯度检查点）
- save_only_model（仅保存模型）
- enable_masked_ranges（启用掩码范围）
- save_strategy（保存策略）
- save_total_limit（保存总数限制）
- sf_tracker_dataset_id（SF跟踪器数据集ID）
- sf_eval_before_training（训练前评估）
- sf_wandb_project（SF WandB项目）
- sf_eval_steps（SF评估步骤）
- run_name（运行名称）
分割：
- train（训练集）：559字节，1个示例
下载大小：17,861字节
数据集大小：559字节

3. logs__evaluation_eval_sft

特征：
- timestamp（时间戳）
- end_timestamp（结束时间戳）
- stage_name（阶段名称）
- stage_number（阶段编号）
- level（级别）
- message（消息）
- stdout_content（标准输出内容）
- stderr_content（标准错误内容）
- experiment_name（实验名称）
- elapsed_time_seconds（经过时间秒数）
- stage_complete（阶段完成）
分割：
- train（训练集）：41,695,164字节，15个示例
下载大小：2,821,768字节
数据集大小：41,695,164字节

4. logs__llamafactory_sft

特征：
- timestamp（时间戳）
- end_timestamp（结束时间戳）
- stage_name（阶段名称）
- stage_number（阶段编号）
- level（级别）
- message（消息）
- stdout_content（标准输出内容）
- stderr_content（标准错误内容）
- experiment_name（实验名称）
- elapsed_time_seconds（经过时间秒数）
- stage_complete（阶段完成）
分割：
- train（训练集）：2,429,907字节，1个示例
下载大小：315,123字节
数据集大小：2,429,907字节

5. metadata

特征：
- experiment_name（实验名称）
- start_time（开始时间）
- description（描述）
- base_org（基础组织）
- stage_number（阶段编号）
- stage_type（阶段类型）
- status（状态）
分割：
- train（训练集）：8,110字节，33个示例
下载大小：5,675字节
数据集大小：8,110字节

6. training_data__sft

特征：
- split（分割）
- example_idx（示例索引）
- stage_name（阶段名称）
- timestamp（时间戳）
- conversations（对话）
分割：
- train（训练集）：11,046,265字节，3,947个示例
下载大小：4,272,897字节
数据集大小：11,046,265字节

7. training_data__sft_metadata

特征：
- stage_name（阶段名称）
- stage_number（阶段编号）
- timestamp（时间戳）
- original_dataset_id（原始数据集ID）
- dataset_type（数据集类型）
- usage（用途）
- dataset_info（数据集信息）
分割：
- train（训练集）：292字节，1个示例
下载大小：5,421字节
数据集大小：292字节

使用示例

python from datasets import load_dataset

加载实验元数据

metadata = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, metadata)

加载完整的训练数据集

sft_data = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, training_data__sft) sft_metadata = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, training_data__sft_metadata)

加载完整的配置

sft_hyperparams = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, hyperparameters__sft)

加载阶段特定的日志

sft_logs = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, logs__llamafactory_sft)

加载带有注释的评估结果

sft_eval_results = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, evals_eval_sft)

搜集汇总

数据集介绍

构建方式

在机器学习实验追踪领域，D-ExpTracker数据集通过结构化配置构建，涵盖训练数据、超参数、评估结果和元数据等多个维度。该数据集采用分阶段即时上传机制，确保实验过程的完整记录与数据可追溯性，每个配置包含详细的特征定义和数据分割，支持实验全生命周期的数据管理。

使用方法

研究人员可通过HuggingFace数据集库加载特定配置，例如使用load_dataset函数分别调用训练数据、超参数配置或评估结果。该数据集支持实验复现、模型性能对比和技能分析研究，其结构化设计便于进行跨阶段的实验数据关联分析，为机器学习工作流提供全面验证基础。

背景与挑战

背景概述

实验追踪数据集作为机器学习研究基础设施的重要组成部分，D-ExpTracker__test_metrics_skill_analysis__v1由TAUR-dev团队于2025年构建，专注于技能工厂工作流的实验管理。该数据集通过结构化记录监督微调过程中的超参数配置、训练数据、评估结果和系统日志，为研究社区提供完整的实验可复现性保障。其创新性体现在将传统分散的实验要素整合为统一范式，显著提升了模型训练过程的透明度和可追溯性，对自动化机器学习工作流的发展具有重要推动作用。

当前挑战

该数据集致力于解决机器学习实验管理中数据碎片化与可复现性保障的核心难题。构建过程中面临多模态实验数据的标准化整合挑战，包括异构日志格式的统一化处理、动态超参数的结构化存储以及模型响应评估元数据的精确对齐。技术实现上需克服实时数据流同步与版本控制的复杂性，确保实验各阶段数据采集的完整性和时序一致性，同时维持大规模评估数据标注的质量控制体系。

常用场景

解决学术问题

该数据集有效解决了语言模型训练过程中实验可复现性差的学术难题，通过完整记录超参数配置、训练日志和评估结果，建立了端到端的实验溯源体系。其细粒度的答案提取与评估元数据为理解模型错误模式提供了关键洞察，显著推进了训练稳定性与评估方法论研究。

实际应用

在实际工业场景中，该数据集支撑着企业级语言模型开发流水线的质量管控，被广泛应用于金融咨询、教育辅助等高风险领域的模型验证。其标准化的评估协议能够快速检测模型在数学推理、逻辑判断等核心技能上的表现，为生产环境部署提供可靠性保障。

数据集最近研究