five

yuruny/agentic-sudoku-Markov-qwen2.5-3B_9x9_6-6_SFT-5e-6-ans1-6k_grpo200-eval_results

收藏
Hugging Face2025-12-14 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/yuruny/agentic-sudoku-Markov-qwen2.5-3B_9x9_6-6_SFT-5e-6-ans1-6k_grpo200-eval_results
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,其中steps是一个列表,包含动作、聊天完成情况、完成状态、mc_return、模型响应、观察和奖励等子特征。每个子特征都有指定的数据类型。数据集还包括一个reward特征,数据类型为float64。数据集分为train训练集,包含102,400个样本,总大小为553,195,995字节,下载大小为671,930字节。

The dataset includes multiple features, with steps being a list that contains sub-features such as action, chat completions, done status, mc_return, model_response, observation, and reward. Each sub-feature has a specified data type. The dataset also includes a reward feature with a float64 data type. The dataset is split into a train set with 102,400 examples, a total size of 553,195,995 bytes, and a download size of 671,930 bytes.
提供机构:
yuruny
二维码
社区交流群
二维码
科研交流群
商业服务