ttt-discover-circle_packing_24-qwen3-8b
收藏数据集概述
基本信息
- 数据集名称: ttt-discover-circle_packing_24-qwen3-8b
- 许可证: mit
- 标签: ttt-discover, test-time-training, qwen3-8b, you-are-an-expert-mathematicia
数据集描述
该数据集记录了TTT-Discover的训练轨迹,具体为Qwen/Qwen3-8B模型在“你是一位专门研究圆填充问题和计算器的专家数学家”任务上的训练过程。
数据集结构
- 行数: 17
- 列数: 13
列信息
| 列名 | 类型 | 描述 |
|---|---|---|
| run_id | Value(string) | 唯一运行标识符 |
| model | Value(string) | 完整模型名称 |
| question | Value(string) | 提示模板(包含用于PUCT注入的__STATE_CTX__占位符) |
| answer | Value(string) | 目标值字符串 |
| epoch | Value(int64) | 未提供描述 |
| group_size | Value(int64) | 每组的 rollout 数量 |
| avg_reward | Value(float64) | 所有 rollout 的平均奖励 |
| best_reward | Value(float64) | 所有 rollout 的最大奖励 |
| loss | Value(float64) | 策略梯度训练损失 |
| reward_delta | Value(float64) | 与上一步相比 avg_reward 的变化 |
| rollouts | Value(string) | 未提供描述 |
| config | Value(string) | JSON 超参数 |
| timestamp | Value(string) | ISO 时间戳 |
生成参数
json { "script_name": "scripts/run_ttt_discover.py", "model": "Qwen/Qwen3-8B", "description": "TTT-Discover training trace: Qwen/Qwen3-8B on You are an expert mathematician specializing in circle packing problems and comp", "hyperparameters": { "task_id": "circle_packing_24", "num_steps": 50, "group_size": 64, "num_groups": 8, "total_rollouts": 512, "lr": 4e-05, "lora_rank": 32, "lora_alpha": 64, "temperature": 1.0, "max_tokens": 15000, "seed": 42, "start_step": 15, "resume_from": "/mnt/home/zsprague/code/JobToolKit/discover_output/circle_packing_24/lora_step_14" }, "input_datasets": [] }
使用方式
python from datasets import load_dataset
dataset = load_dataset("reasoning-degeneration-dev/ttt-discover-circle_packing_24-qwen3-8b", split="train") print(f"Loaded {len(dataset)} rows")
相关链接
- 此数据集在 reasoning-degeneration-dev/PROJECT-MANIFEST 中被追踪。




