five

yuruny/agentic-sudoku-NonMarkov_qwen2.5-3B-it-5e-6_9x9_6-6_gt-SFT_ans1-9k-eval_results

收藏
Hugging Face2025-12-14 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/yuruny/agentic-sudoku-NonMarkov_qwen2.5-3B-it-5e-6_9x9_6-6_gt-SFT_ans1-9k-eval_results
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含steps和reward两个主要特征。steps特征下包含多个子特征,如action(动作)、chat_completions(聊天补全,包含content和role)、done(是否完成)、mc_return(MC返回)、model_response(模型响应)、observation(观察)和reward(奖励)。数据集分为一个train训练集,包含12,800个样本,总大小为28,834,538字节。

The dataset includes two main features: steps and reward. The steps feature contains several sub-features such as action, chat_completions (including content and role), done, mc_return, model_response, observation, and reward. The dataset is split into a train set with 12,800 examples and a total size of 28,834,538 bytes.
提供机构:
yuruny
二维码
社区交流群
二维码
科研交流群
商业服务