TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1

Name: TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1
Creator: TAUR-dev
Published: 2025-12-02 10:28:09
License: 暂无描述

Hugging Face2025-12-02 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: evals_eval_rl features: - name: question dtype: string - name: answer dtype: string - name: task_config dtype: string - name: task_source dtype: string - name: prompt list: - name: content dtype: string - name: role dtype: string - name: model_responses list: 'null' - name: model_responses__eval_is_correct list: 'null' - name: all_other_columns dtype: string - name: original_split dtype: string - name: metadata dtype: string - name: model_responses__best_of_n_atags list: string - name: model_responses__best_of_n_atags__finish_reason_length_flags list: bool - name: model_responses__best_of_n_atags__length_partial_responses list: string - name: prompt__best_of_n_atags__metadata struct: - name: api_url dtype: string - name: backend dtype: string - name: chat_template_applied dtype: bool - name: generation_params struct: - name: chat_template_applied dtype: bool - name: max_tokens dtype: int64 - name: n dtype: int64 - name: repetition_penalty dtype: float64 - name: temperature dtype: float64 - name: top_k dtype: int64 - name: top_p dtype: float64 - name: model_name dtype: string - name: prompt list: - name: content dtype: string - name: role dtype: string - name: model_responses__best_of_n_atags__metadata struct: - name: backend dtype: string - name: model_name dtype: string - name: n_responses dtype: int64 - name: model_responses__best_of_n_atags__eval_is_correct list: bool - name: model_responses__best_of_n_atags__eval_extracted_answers list: string - name: model_responses__best_of_n_atags__eval_extraction_metadata dtype: string - name: model_responses__best_of_n_atags__eval_evaluation_metadata dtype: string - name: model_responses__best_of_n_atags__internal_answers__eval_is_correct list: list: bool - name: model_responses__best_of_n_atags__internal_answers__eval_extracted_answers list: list: string - name: model_responses__best_of_n_atags__internal_answers__eval_extraction_metadata dtype: string - name: model_responses__best_of_n_atags__internal_answers__eval_evaluation_metadata dtype: string - name: model_responses__best_of_n_atags__metrics struct: - name: flips_by list: int64 - name: flips_total dtype: int64 - name: num_correct dtype: int64 - name: pass_at_n dtype: int64 - name: percent_correct dtype: float64 - name: total_responses dtype: int64 - name: eval_date dtype: string - name: split dtype: string - name: revision_name dtype: string - name: model_path dtype: string - name: checkpoint_step dtype: int64 - name: stage_name dtype: string - name: stage_number dtype: int64 - name: timestamp dtype: string - name: eval_repo_id dtype: string splits: - name: test num_bytes: 35316600 num_examples: 1000 download_size: 4998744 dataset_size: 35316600 - config_name: logs__evaluation_eval_rl features: - name: timestamp dtype: string - name: end_timestamp dtype: string - name: stage_name dtype: string - name: stage_number dtype: int64 - name: level dtype: string - name: message dtype: string - name: stdout_content dtype: string - name: stderr_content dtype: string - name: experiment_name dtype: string - name: elapsed_time_seconds dtype: float64 - name: stage_complete dtype: bool splits: - name: train num_bytes: 7940166 num_examples: 1 download_size: 553870 dataset_size: 7940166 - config_name: metadata features: - name: experiment_name dtype: string - name: start_time dtype: string - name: description dtype: string - name: base_org dtype: string - name: stage_number dtype: string - name: stage_type dtype: string - name: status dtype: string splits: - name: train num_bytes: 9426 num_examples: 5 download_size: 9684 dataset_size: 9426 configs: - config_name: evals_eval_rl data_files: - split: test path: evals_eval_rl/test-* - config_name: logs__evaluation_eval_rl data_files: - split: train path: logs__evaluation_eval_rl/train-* - config_name: metadata data_files: - split: train path: metadata/train-* --- # Experiment Tracker: FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg **Experiment Description:** Evaluation experiment for task countdown_4arg from FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL **Start Time:** 2025-12-01T22:40:29.187000 **Tracker Dataset:** [TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1](https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1) ## Stages Completed Total stages: 1 ## Models Created ## Dataset Configurations This tracker dataset contains the following configurations with **immediate upload** as stages complete: ### Training Data (Complete Datasets) ### Hyperparameters (Complete Configurations) ### Logs (Stage-Specific) ### Evaluation Results (Complete with Annotations) ### Metadata - **experiment_metadata**: Timeline and stage information ## Usage Load specific configurations with: ```python from datasets import load_dataset # Load experiment metadata metadata = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'experiment_metadata') # Load complete training datasets sft_data = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'training_data__sft') sft_metadata = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'training_data__sft_metadata') # Load complete configurations sft_hyperparams = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'hyperparameters__sft') rl_hyperparams = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'hyperparameters__rl') # Load stage-specific logs sft_logs = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'logs__sft') rl_logs = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'logs__rl') # Load evaluation results with annotations sft_eval_results = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'evals_eval_sft') rl_eval_results = load_dataset('TAUR-dev/D-ExpTracker__FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg__v1', 'evals_eval_rl') ``` ## Models ## Registry All models from this experiment are automatically registered in the [SkillFactory Model Registry](https://huggingface.co/datasets/TAUR-dev/SkillFactory-Registration) with: - **Complete training configuration** (hyperparameters, datasets, methods) - **Experiment lineage** (links back to this tracker dataset) - **Stage-specific metadata** (SFT vs RL training details) - **Structured input data references** (training datasets and configurations) Registry entries follow the naming pattern: `Model - FinEval_16k_fulleval_3arg_OLMO_RLONLY-RL-countdown_4arg - {stage_name} - {SFT/RL}` --- *Generated by SkillFactory Experiment Management System* *All artifacts uploaded immediately as stages complete with perfect data provenance*

提供机构：

TAUR-dev

5,000+

优质数据集

54 个

任务类型

进入经典数据集