yuruny/agentic-sudoku-Markov-qwen2.5-3B_9x9_6-6_SFT-5e-6-ans1-6k_grpo100-eval_results

Name: yuruny/agentic-sudoku-Markov-qwen2.5-3B_9x9_6-6_SFT-5e-6-ans1-6k_grpo100-eval_results
Creator: yuruny
Published: 2025-12-14 05:11:00
License: 暂无描述

Hugging Face2025-12-14 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/yuruny/agentic-sudoku-Markov-qwen2.5-3B_9x9_6-6_SFT-5e-6-ans1-6k_grpo100-eval_results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个训练集，共有102,400个示例，总大小为537,736,484字节。数据集的特征包括steps（包含动作、聊天完成情况、完成状态、mc_return、模型响应、观察和奖励）和一个单独的reward特征。这些特征表明数据集可能用于强化学习或交互式任务。下载大小为788,346字节。

The dataset includes a training set with 102,400 examples and a total size of 537,736,484 bytes. The features of the dataset include steps (which contains actions, chat completions, done status, mc_return, model response, observation, and reward) and a separate reward feature. These features suggest that the dataset may be used for reinforcement learning or interactive tasks. The download size is 788,346 bytes.

提供机构：

yuruny