five

D-ExpTracker__test_metrics_skill_analysis__v1

收藏
Hugging Face2025-08-09 更新2025-08-10 收录
下载链接:
https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于技能工厂工作流程的简单测试实验数据集。数据集包含训练数据、超参数配置、日志记录、评估结果和元数据。数据集分为不同的配置,每个配置都有详细的特征和数据类型描述。数据集的用途包括加载特定配置、训练数据、超参数、日志和评估结果。
创建时间:
2025-08-09
原始信息汇总

数据集概述:TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1

数据集描述

  • 实验描述:用于Skill Factory工作流的简单测试实验。
  • 开始时间:2025-08-08T23:27:48.242615
  • 数据集地址:https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1

数据集配置

数据集包含以下配置:

1. evals_eval_sft

  • 特征
    • question(问题)
    • answer(答案)
    • task_config(任务配置)
    • task_source(任务来源)
    • prompt(提示)
    • model_responses(模型响应)
    • model_responses__eval_is_correct(模型响应评估是否正确)
    • all_other_columns(其他列)
    • original_split(原始分割)
    • answer_index(答案索引)
    • answer_key(答案键)
    • choices(选择)
    • difficulty(难度)
    • domain(领域)
    • evaluation_type(评估类型)
    • expected_answer_format(期望的答案格式)
    • id(ID)
    • metadata(元数据)
    • original_answer(原始答案)
    • prompt__few_shot(少量提示)
    • source(来源)
    • task_type(任务类型)
    • variant(变体)
    • model_responses__best_of_n(最佳N个模型响应)
    • prompt__best_of_n__metadata(最佳N个提示元数据)
    • model_responses__best_of_n__metadata(最佳N个模型响应元数据)
    • model_responses__greedy(贪婪模型响应)
    • prompt__greedy__metadata(贪婪提示元数据)
    • model_responses__greedy__metadata(贪婪模型响应元数据)
    • model_responses__best_of_n__eval_is_correct(最佳N个模型响应评估是否正确)
    • model_responses__best_of_n__eval_extracted_answers(最佳N个模型响应提取的答案)
    • model_responses__best_of_n__eval_extraction_metadata(最佳N个模型响应提取元数据)
    • model_responses__best_of_n__eval_evaluation_metadata(最佳N个模型响应评估元数据)
    • model_responses__best_of_n__internal_answers__eval_is_correct(最佳N个模型响应内部答案评估是否正确)
    • model_responses__best_of_n__internal_answers__eval_extracted_answers(最佳N个模型响应内部答案提取的答案)
    • model_responses__best_of_n__internal_answers__eval_extraction_metadata(最佳N个模型响应内部答案提取元数据)
    • model_responses__best_of_n__internal_answers__eval_evaluation_metadata(最佳N个模型响应内部答案评估元数据)
    • model_responses__best_of_n__metrics(最佳N个模型响应指标)
    • model_responses__greedy__eval_is_correct(贪婪模型响应评估是否正确)
    • model_responses__greedy__eval_extracted_answers(贪婪模型响应提取的答案)
    • model_responses__greedy__eval_extraction_metadata(贪婪模型响应提取元数据)
    • model_responses__greedy__eval_evaluation_metadata(贪婪模型响应评估元数据)
    • model_responses__greedy__internal_answers__eval_is_correct(贪婪模型响应内部答案评估是否正确)
    • model_responses__greedy__internal_answers__eval_extracted_answers(贪婪模型响应内部答案提取的答案)
    • model_responses__greedy__internal_answers__eval_extraction_metadata(贪婪模型响应内部答案提取元数据)
    • model_responses__greedy__internal_answers__eval_evaluation_metadata(贪婪模型响应内部答案评估元数据)
    • model_responses__greedy__metrics(贪婪模型响应指标)
    • eval_date(评估日期)
    • split(分割)
    • revision_name(修订名称)
    • model_path(模型路径)
    • checkpoint_step(检查点步骤)
    • stage_name(阶段名称)
    • stage_number(阶段编号)
    • timestamp(时间戳)
    • eval_repo_id(评估仓库ID)
  • 分割
    • test(测试集):16,884,587字节,1,500个示例
  • 下载大小:4,856,910字节
  • 数据集大小:16,884,587字节

2. hyperparameters__sft

  • 特征
    • model_name_or_path(模型名称或路径)
    • trust_remote_code(信任远程代码)
    • stage(阶段)
    • do_train(是否训练)
    • finetuning_type(微调类型)
    • deepspeed(深度速度)
    • dataset(数据集)
    • template(模板)
    • cutoff_len(截断长度)
    • max_samples(最大样本数)
    • overwrite_cache(覆盖缓存)
    • preprocessing_num_workers(预处理工作线程数)
    • dataloader_num_workers(数据加载器工作线程数)
    • disable_tqdm(禁用tqdm)
    • output_dir(输出目录)
    • logging_steps(日志步骤)
    • save_steps(保存步骤)
    • plot_loss(绘制损失)
    • overwrite_output_dir(覆盖输出目录)
    • per_device_train_batch_size(每个设备的训练批次大小)
    • gradient_accumulation_steps(梯度累积步骤)
    • learning_rate(学习率)
    • num_train_epochs(训练周期数)
    • lr_scheduler_type(学习率调度器类型)
    • warmup_ratio(预热比例)
    • weight_decay(权重衰减)
    • adam_beta1(Adam Beta1)
    • adam_beta2(Adam Beta2)
    • bf16(BF16)
    • ddp_timeout(DDP超时)
    • gradient_checkpointing(梯度检查点)
    • save_only_model(仅保存模型)
    • enable_masked_ranges(启用掩码范围)
    • save_strategy(保存策略)
    • save_total_limit(保存总数限制)
    • sf_tracker_dataset_id(SF跟踪器数据集ID)
    • sf_eval_before_training(训练前评估)
    • sf_wandb_project(SF WandB项目)
    • sf_eval_steps(SF评估步骤)
    • run_name(运行名称)
  • 分割
    • train(训练集):559字节,1个示例
  • 下载大小:17,861字节
  • 数据集大小:559字节

3. logs__evaluation_eval_sft

  • 特征
    • timestamp(时间戳)
    • end_timestamp(结束时间戳)
    • stage_name(阶段名称)
    • stage_number(阶段编号)
    • level(级别)
    • message(消息)
    • stdout_content(标准输出内容)
    • stderr_content(标准错误内容)
    • experiment_name(实验名称)
    • elapsed_time_seconds(经过时间秒数)
    • stage_complete(阶段完成)
  • 分割
    • train(训练集):41,695,164字节,15个示例
  • 下载大小:2,821,768字节
  • 数据集大小:41,695,164字节

4. logs__llamafactory_sft

  • 特征
    • timestamp(时间戳)
    • end_timestamp(结束时间戳)
    • stage_name(阶段名称)
    • stage_number(阶段编号)
    • level(级别)
    • message(消息)
    • stdout_content(标准输出内容)
    • stderr_content(标准错误内容)
    • experiment_name(实验名称)
    • elapsed_time_seconds(经过时间秒数)
    • stage_complete(阶段完成)
  • 分割
    • train(训练集):2,429,907字节,1个示例
  • 下载大小:315,123字节
  • 数据集大小:2,429,907字节

5. metadata

  • 特征
    • experiment_name(实验名称)
    • start_time(开始时间)
    • description(描述)
    • base_org(基础组织)
    • stage_number(阶段编号)
    • stage_type(阶段类型)
    • status(状态)
  • 分割
    • train(训练集):8,110字节,33个示例
  • 下载大小:5,675字节
  • 数据集大小:8,110字节

6. training_data__sft

  • 特征
    • split(分割)
    • example_idx(示例索引)
    • stage_name(阶段名称)
    • timestamp(时间戳)
    • conversations(对话)
  • 分割
    • train(训练集):11,046,265字节,3,947个示例
  • 下载大小:4,272,897字节
  • 数据集大小:11,046,265字节

7. training_data__sft_metadata

  • 特征
    • stage_name(阶段名称)
    • stage_number(阶段编号)
    • timestamp(时间戳)
    • original_dataset_id(原始数据集ID)
    • dataset_type(数据集类型)
    • usage(用途)
    • dataset_info(数据集信息)
  • 分割
    • train(训练集):292字节,1个示例
  • 下载大小:5,421字节
  • 数据集大小:292字节

使用示例

python from datasets import load_dataset

加载实验元数据

metadata = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, metadata)

加载完整的训练数据集

sft_data = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, training_data__sft) sft_metadata = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, training_data__sft_metadata)

加载完整的配置

sft_hyperparams = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, hyperparameters__sft)

加载阶段特定的日志

sft_logs = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, logs__llamafactory_sft)

加载带有注释的评估结果

sft_eval_results = load_dataset(TAUR-dev/D-ExpTracker__test_metrics_skill_analysis__v1, evals_eval_sft)

搜集汇总
数据集介绍
main_image_url
构建方式
在机器学习实验追踪领域,D-ExpTracker数据集通过结构化配置构建,涵盖训练数据、超参数、评估结果和元数据等多个维度。该数据集采用分阶段即时上传机制,确保实验过程的完整记录与数据可追溯性,每个配置包含详细的特征定义和数据分割,支持实验全生命周期的数据管理。
使用方法
研究人员可通过HuggingFace数据集库加载特定配置,例如使用load_dataset函数分别调用训练数据、超参数配置或评估结果。该数据集支持实验复现、模型性能对比和技能分析研究,其结构化设计便于进行跨阶段的实验数据关联分析,为机器学习工作流提供全面验证基础。
背景与挑战
背景概述
实验追踪数据集作为机器学习研究基础设施的重要组成部分,D-ExpTracker__test_metrics_skill_analysis__v1由TAUR-dev团队于2025年构建,专注于技能工厂工作流的实验管理。该数据集通过结构化记录监督微调过程中的超参数配置、训练数据、评估结果和系统日志,为研究社区提供完整的实验可复现性保障。其创新性体现在将传统分散的实验要素整合为统一范式,显著提升了模型训练过程的透明度和可追溯性,对自动化机器学习工作流的发展具有重要推动作用。
当前挑战
该数据集致力于解决机器学习实验管理中数据碎片化与可复现性保障的核心难题。构建过程中面临多模态实验数据的标准化整合挑战,包括异构日志格式的统一化处理、动态超参数的结构化存储以及模型响应评估元数据的精确对齐。技术实现上需克服实时数据流同步与版本控制的复杂性,确保实验各阶段数据采集的完整性和时序一致性,同时维持大规模评估数据标注的质量控制体系。
常用场景
解决学术问题
该数据集有效解决了语言模型训练过程中实验可复现性差的学术难题,通过完整记录超参数配置、训练日志和评估结果,建立了端到端的实验溯源体系。其细粒度的答案提取与评估元数据为理解模型错误模式提供了关键洞察,显著推进了训练稳定性与评估方法论研究。
实际应用
在实际工业场景中,该数据集支撑着企业级语言模型开发流水线的质量管控,被广泛应用于金融咨询、教育辅助等高风险领域的模型验证。其标准化的评估协议能够快速检测模型在数学推理、逻辑判断等核心技能上的表现,为生产环境部署提供可靠性保障。
数据集最近研究
最新研究方向
在人工智能实验追踪领域,D-ExpTracker数据集正推动着可复现性研究的深度发展。当前研究聚焦于多模态实验数据的结构化存储与动态分析,通过整合训练配置、评估指标和模型响应元数据,为大规模语言模型的技能演化提供量化依据。前沿工作探索基于该数据集的自动化评估流水线,结合best-of-n采样策略与贪婪解码的对比分析,揭示模型推理过程中的认知偏差修正机制。这一研究方向与当前AI安全性和对齐技术热点紧密关联,为构建透明可信的模型训练体系提供关键数据支撑,对促进负责任人工智能发展具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作