D-ExpTracker__1e_full_run__v1

Hugging Face2025-09-16 更新2025-09-17 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__1e_full_run__v1

下载链接

链接失效反馈

官方服务：

资源简介：

评估RL模型的数据集，包含问题、答案、任务配置、提示等信息，以及评估指标和日志记录。

创建时间：

2025-09-16

原始信息汇总

数据集概述

基本信息

数据集名称: TAUR-dev/D-ExpTracker__1e_full_run__v1
实验描述: Simple test experiment for Skill Factory workflows
开始时间: 2025-09-15T22:15:16.732639
总阶段数: 1

配置信息

evals_eval_rl

特征:
- question: string
- answer: string
- task_config: string
- task_source: string
- prompt: list[content: string, role: string]
- model_responses: sequence
- model_responses__eval_is_correct: sequence
- all_other_columns: string
- original_split: string
- answer_index: int64
- answer_key: string
- choices: struct[label: sequence[string], text: sequence[string]]
- difficulty: string
- domain: string
- evaluation_type: string
- expected_answer_format: string
- id: string
- metadata: string
- original_answer: string
- prompt__few_shot: list[content: string, role: string]
- source: string
- task_type: string
- variant: string
- model_responses__sample_based_budget_forcing: sequence[string]
- model_responses__sample_based_budget_forcing__metadata: struct[actual_samples: int64, chunks: sequence[string], final_response: string, generation_rounds: int64, has_thinking_closure: bool, metadata: struct[original_prompt: string], target_samples: int64]
- model_responses__sample_based_budget_forcing__chunks: sequence[string]
- prompt__sample_based_budget_forcing__metadata: struct[api_url: string, backend: string, chat_template_applied: bool, generation_params: struct[chat_template_applied: bool, max_tokens: int64, min_tokens: int64, repetition_penalty: float64, stop: sequence[string], temperature: float64, top_k: int64, top_p: float64], model_name: string, prompt: list[content: string, role: string]]
- model_responses__sample_based_budget_forcing__eval_is_correct: sequence[bool]
- model_responses__sample_based_budget_forcing__eval_extracted_answers: sequence[string]
- model_responses__sample_based_budget_forcing__eval_extraction_metadata: string
- model_responses__sample_based_budget_forcing__eval_evaluation_metadata: string
- model_responses__sample_based_budget_forcing__internal_answers__eval_is_correct: sequence[sequence[bool]]
- model_responses__sample_based_budget_forcing__internal_answers__eval_extracted_answers: sequence[sequence[string]]
- model_responses__sample_based_budget_forcing__internal_answers__eval_extraction_metadata: string
- model_responses__sample_based_budget_forcing__internal_answers__eval_evaluation_metadata: string
- model_responses__sample_based_budget_forcing__metrics: struct[flips_by: sequence[int64], flips_total: int64, num_correct: int64, pass_at_n: null, percent_correct: null, skill_count: struct[answer_revision: sequence[int64], best_of_n: sequence[int64], reflect_close: sequence[int64], reflect_open: sequence[int64], reflection_sbon: sequence[int64], sample_close: sequence[int64], sample_open: sequence[int64], vote_close: sequence[int64], vote_open: sequence[int64], voting: sequence[int64]], total_responses: int64]
- model_responses__sample_based_budget_forcing__chunks__eval_is_correct: sequence[bool]
- model_responses__sample_based_budget_forcing__chunks__eval_extracted_answers: sequence[string]
- model_responses__sample_based_budget_forcing__chunks__eval_extraction_metadata: string
- model_responses__sample_based_budget_forcing__chunks__eval_evaluation_metadata: string
- model_responses__sample_based_budget_forcing__chunks__internal_answers__eval_is_correct: sequence[sequence[bool]]
- model_responses__sample_based_budget_forcing__chunks__internal_answers__eval_extracted_answers: sequence[sequence[string]]
- model_responses__sample_based_budget_forcing__chunks__internal_answers__eval_extraction_metadata: string
- model_responses__sample_based_budget_forcing__chunks__internal_answers__eval_evaluation_metadata: string
- model_responses__sample_based_budget_forcing__chunks__metrics: struct[flips_by: sequence[int64], flips_total: int64, num_correct: int64, pass_at_n: int64, percent_correct: float64, skill_count: struct[answer_revision: sequence[int64], best_of_n: sequence[int64], reflect_close: sequence[int64], reflect_open: sequence[int64], reflection_sbon: sequence[int64], sample_close: sequence[int64], sample_open: sequence[int64], vote_close: sequence[int64], vote_open: sequence[int64], voting: sequence[int64]], total_responses: int64]
- eval_date: string
- split: string
- revision_name: string
- model_path: string
- checkpoint_step: int64
- stage_name: string
- stage_number: int64
- timestamp: string
- eval_repo_id: string
拆分: test
样本数量: 2450
字节大小: 295613995
下载大小: 54361279

logs__evaluation_eval_rl

特征:
- timestamp: string
- end_timestamp: string
- stage_name: string
- stage_number: int64
- level: string
- message: string
- stdout_content: string
- stderr_content: string
- experiment_name: string
- elapsed_time_seconds: float64
- stage_complete: bool
拆分: train
样本数量: 2
字节大小: 837970499
下载大小: 54313118

metadata

特征:
- experiment_name: string
- start_time: string
- description: string
- base_org: string
- stage_number: string
- stage_type: string
- status: string
拆分: train
样本数量: 6
字节大小: 10458
下载大小: 8766

使用方式

python from datasets import load_dataset

加载实验元数据

metadata = load_dataset(TAUR-dev/D-ExpTracker__1e_full_run__v1, experiment_metadata)

加载评估结果

rl_eval_results = load_dataset(TAUR-dev/D-ExpTracker__1e_full_run__v1, evals_eval_rl)

模型注册

所有模型自动注册在SkillFactory模型注册表中，包含完整训练配置、实验谱系、阶段特定元数据和结构化输入数据引用。

搜集汇总

数据集介绍

构建方式

在人工智能实验管理领域，D-ExpTracker__1e_full_run__v1数据集采用多阶段实验追踪架构构建，通过实时记录强化学习实验全流程。数据集整合了评估结果、运行日志和元数据三大配置模块，其中eval_rl模块包含2450个测试样本，每个样本配备问题-答案对、任务配置、模型响应序列及多层次评估指标。系统通过样本预算强制机制采集模型生成过程数据，包括思维链片段、修订轮次和正确性标注，确保实验数据的完整性和可追溯性。

特点

该数据集显著特征体现在其多维度的结构化评估体系，不仅包含基础的问题回答数据，更深度集成了模型推理过程的动态记录。特征字段涵盖任务难度分级、领域分类、评估类型区分，以及模型响应中的样本预算强制元数据，如实际采样数、生成轮次和思维闭合状态。特别值得注意的是其嵌套式评估指标体系，包含正确率统计、技能计数分析和响应翻转追踪，为研究模型决策过程提供细粒度观测窗口。

使用方法

研究人员可通过HuggingFace数据集库直接加载特定配置模块进行分析，使用load_dataset函数分别调用eval_rl评估结果、实验日志和元数据组件。评估数据模块支持对模型响应正确性、答案提取质量和内部推理过程的量化分析，日志模块提供实验阶段时间戳和输出记录，元数据模块则包含实验描述和阶段状态信息。这种模块化设计允许研究者根据需求选择特定数据维度，适用于强化学习模型评估、实验过程复现和训练策略比较等研究场景。

背景与挑战

背景概述

实验追踪数据集D-ExpTracker__1e_full_run__v1由TAUR-dev研究团队于2025年构建，专为强化学习与监督微调实验管理而设计。该数据集通过结构化记录训练配置、超参数、评估结果及实验日志，为人工智能工作流提供全周期可追溯性支持。其核心价值在于实现实验数据的即时同步与完美溯源，显著提升了复杂机器学习实验的透明度和可复现性，对自动化机器学习运维领域具有重要推动作用。

当前挑战

该数据集需解决强化学习模型训练过程中动态决策轨迹的标准化记录难题，包括多模态响应评估、预算约束下的采样策略优化等复杂场景。构建过程中面临多维异构数据的实时同步技术挑战，需设计统一架构整合结构化参数与非结构化日志数据，同时确保大规模实验元数据的高效存储与快速检索机制，这对分布式系统的数据一致性保障提出了极高要求。

常用场景

经典使用场景

在强化学习与监督微调的研究领域中，D-ExpTracker数据集为实验过程追踪提供了标准化框架。该数据集通过记录模型训练过程中的多维度指标，包括超参数配置、评估结果和日志信息，使研究人员能够系统性地分析不同训练阶段模型性能的演变规律。其结构化存储格式特别适用于对比分析监督微调与强化学习方法的协同效应，为算法优化提供实证依据。

实际应用

在实际工业应用场景中，该数据集支撑着端到端的模型开发流水线。企业研发团队可依据其记录的完整实验轨迹，快速定位最优模型配置，大幅降低试错成本。特别是在对话系统、智能客服等需要迭代优化的领域，数据集提供的性能评估指标和训练日志能够指导生产环境中的模型部署决策，确保模型迭代过程的可控性与透明度。

衍生相关工作

基于该数据集的实验管理范式，研究社区衍生出多项创新工作。SkillFactory工作流系统利用其标准化格式实现了自动化实验追踪，而TAUR开发框架则在此基础上构建了模型注册体系。这些衍生工作共同推动了机器学习实验管理的标准化进程，为后续研究提供了可扩展的基础架构，促进了实验数据共享与协作研究生态的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集