ttt-discover-circle_packing_24-qwen3-8b

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/reasoning-degeneration-dev/ttt-discover-circle_packing_24-qwen3-8b

下载链接

链接失效反馈

官方服务：

资源简介：

数据集 'ttt-discover-circle_packing_24-qwen3-8b' 记录了 Qwen/Qwen3-8B 模型在特定数学任务上的训练轨迹。该数据集包含 17 行和 13 列，每列都有详细的类型和用途描述。数据集与测试时训练（TTT）相关，并标记了相关关键词。生成参数包括训练过程中使用的超参数，如学习率、温度和最大令牌数。该数据集适用于与圆包装问题和计算数学相关的机器学习任务。

创建时间：

2026-03-22

原始信息汇总

数据集概述

基本信息

数据集名称: ttt-discover-circle_packing_24-qwen3-8b
许可证: mit
标签: ttt-discover, test-time-training, qwen3-8b, you-are-an-expert-mathematicia

数据集描述

该数据集记录了TTT-Discover的训练轨迹，具体为Qwen/Qwen3-8B模型在“你是一位专门研究圆填充问题和计算器的专家数学家”任务上的训练过程。

数据集结构

行数: 17
列数: 13

列信息

列名	类型	描述
run_id	Value(string)	唯一运行标识符
model	Value(string)	完整模型名称
question	Value(string)	提示模板（包含用于PUCT注入的__STATE_CTX__占位符）
answer	Value(string)	目标值字符串
epoch	Value(int64)	未提供描述
group_size	Value(int64)	每组的 rollout 数量
avg_reward	Value(float64)	所有 rollout 的平均奖励
best_reward	Value(float64)	所有 rollout 的最大奖励
loss	Value(float64)	策略梯度训练损失
reward_delta	Value(float64)	与上一步相比 avg_reward 的变化
rollouts	Value(string)	未提供描述
config	Value(string)	JSON 超参数
timestamp	Value(string)	ISO 时间戳

生成参数

json { "script_name": "scripts/run_ttt_discover.py", "model": "Qwen/Qwen3-8B", "description": "TTT-Discover training trace: Qwen/Qwen3-8B on You are an expert mathematician specializing in circle packing problems and comp", "hyperparameters": { "task_id": "circle_packing_24", "num_steps": 50, "group_size": 64, "num_groups": 8, "total_rollouts": 512, "lr": 4e-05, "lora_rank": 32, "lora_alpha": 64, "temperature": 1.0, "max_tokens": 15000, "seed": 42, "start_step": 15, "resume_from": "/mnt/home/zsprague/code/JobToolKit/discover_output/circle_packing_24/lora_step_14" }, "input_datasets": [] }

使用方式

python from datasets import load_dataset

dataset = load_dataset("reasoning-degeneration-dev/ttt-discover-circle_packing_24-qwen3-8b", split="train") print(f"Loaded {len(dataset)} rows")

相关链接

此数据集在 reasoning-degeneration-dev/PROJECT-MANIFEST 中被追踪。

搜集汇总

数据集介绍

构建方式

在数学优化与强化学习的交叉领域，ttt-discover-circle_packing_24-qwen3-8b数据集的构建体现了测试时训练的前沿范式。该数据集通过Qwen/Qwen3-8B模型在特定数学任务上的训练轨迹生成，围绕圆填充问题设计提示模板，并采用策略梯度方法进行迭代优化。构建过程中，模型以分组形式执行多次推演，每组包含64次独立尝试，总计512次推演，通过损失函数与奖励信号动态调整模型参数，从而记录下从第15步开始、共50步的训练过程，形成包含17条轨迹的详细日志。

使用方法

为利用此数据集进行后续分析或模型复现，研究者可通过Hugging Face的datasets库便捷加载。使用load_dataset函数并指定数据集路径与训练分割，即可获取全部17行数据。数据加载后，用户可进一步解析各列内容，例如从config字段提取超参数设置，或从rollouts字段深入考察推演细节。该数据集主要服务于强化学习、数学问题求解及大语言模型适应性训练等领域的研究，为探索测试时训练机制在专业领域的应用效果提供了实证基础。

背景与挑战

背景概述

在人工智能与数学推理交叉领域，测试时训练（Test-Time Training, TTT）作为一种新兴的适应范式，旨在提升模型在推理任务中的泛化与探索能力。数据集‘ttt-discover-circle_packing_24-qwen3-8b’由研究团队‘reasoning-degeneration-dev’于近期构建，其核心聚焦于圆填充这一经典组合几何问题，特别是针对24个圆的特定配置场景。该数据集记录了Qwen3-8B模型在专家级数学提示引导下的训练轨迹，旨在探究大型语言模型在结构化数学问题解决中的策略优化与奖励学习过程，为可解释性推理与自主探索算法的研究提供了实证基础。

当前挑战

该数据集所应对的核心挑战在于提升模型在复杂数学推理任务中的探索效率与策略稳定性。圆填充问题本身具有高维组合搜索空间与精确几何约束，要求模型不仅生成可行解，还需在测试时动态调整策略以逼近最优配置，这涉及奖励稀疏性与探索-利用权衡的固有难题。在构建过程中，挑战体现在如何设计有效的提示模板以注入专业数学语境，以及管理大规模策略滚动的计算开销，同时确保训练轨迹数据的完整性与可复现性，这些因素共同构成了数据集构建与利用的技术瓶颈。

常用场景

经典使用场景

在数学优化与人工智能交叉领域，该数据集记录了Qwen3-8B模型在圆填充问题上的测试时训练轨迹。圆填充问题作为计算几何中的经典难题，涉及在给定空间内最优排列圆形以最大化密度或满足约束条件。数据集通过捕获模型在迭代训练中的奖励、损失及策略梯度变化，为研究测试时训练机制提供了实证基础。其典型应用场景包括分析大型语言模型在复杂数学推理任务中的自适应学习能力，以及探索模型如何通过在线反馈优化其问题解决策略。

解决学术问题

该数据集主要针对测试时训练范式的可解释性与效率问题。在机器学习研究中，测试时训练允许模型在推理阶段利用未标注数据持续优化，但这一过程往往缺乏透明且高效的监控手段。本数据集通过详细记录训练步骤中的奖励变化、策略损失及超参数配置，为量化测试时训练的动态性能提供了结构化数据。它有助于解决模型在数学推理任务中奖励稀疏性、训练稳定性及泛化能力评估等核心学术挑战，推动了自适应学习理论的发展。

实际应用

在实际工程层面，该数据集可应用于自动化数学问题求解系统的开发与调优。圆填充问题在工业设计、材料科学及计算机图形学中具有广泛应用，例如芯片布局、包装优化或物理模拟。通过分析模型在测试时训练中的表现，工程师能够设计更高效的强化学习算法，以处理类似的空间优化任务。此外，数据集中的超参数与奖励轨迹可为实际部署中的模型自适应调整提供参考，提升系统在动态环境中的鲁棒性与精度。

数据集最近研究