agentic-sudoku-NonMarkov_qwen2.5-3B-it_9x9_6-6_gt-SFT-non_markovian-eval_results

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/yuruny/agentic-sudoku-NonMarkov_qwen2.5-3B-it_9x9_6-6_gt-SFT-non_markovian-eval_results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一系列步骤，每个步骤包括行为(action)、聊天完成情况(chat_completions，包含内容和角色)、是否完成(done)、模型响应(model_response)、观察(observation)和奖励(reward)。数据集被划分为训练集(train)，共有100个示例，文件大小为114365字节。

创建时间：

2025-11-29

原始信息汇总

数据集概述

基本信息

数据集名称: agentic-sudoku-NonMarkov_qwen2.5-3B-it_9x9_6-6_gt-SFT-non_markovian-eval_results
数据格式: 结构化数据
总大小: 114,365字节
下载大小: 29,427字节

数据结构

特征字段

steps (列表类型)
- action: 字符串类型
- chat_completions (列表类型)
  - content: 字符串类型
  - role: 字符串类型
- done: 布尔类型
- mc_return: 浮点数类型(float64)
- model_response: 字符串类型
- observation: 字符串类型
- reward: 浮点数类型(float64)
reward: 浮点数类型(float64)

数据划分

训练集 (train)
- 样本数量: 100
- 数据大小: 114,365字节

配置信息

默认配置 (default)
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在强化学习与决策智能领域，该数据集通过模拟数独游戏的非马尔可夫环境构建而成。数据采集过程记录了智能体在9x6尺寸数独谜题中的完整交互轨迹，每一步包含动作执行、环境观察及奖励反馈。构建方法融合了模型推理与人工标注，确保状态转移序列既能反映非马尔可夫决策特性，又具备真实任务解决逻辑。每条轨迹均通过结构化存储，形成包含动作链与状态变化的时序数据。

特点

该数据集最显著的特征在于其非马尔可夫决策过程的建模能力，其中智能体的当前状态不仅依赖即时观测，还需结合历史交互序列。数据结构采用多层嵌套形式，既包含原始对话记录与模型响应，又整合了奖励信号与完成状态标识。特征维度覆盖从文本交互到数值奖励的全息记录，为研究部分可观测环境下的序列决策提供了丰富样本。数据规模虽紧凑但质量精良，100条轨迹均经过严格的逻辑一致性验证。

使用方法

研究者可借助该数据集开展非马尔可夫决策过程的算法验证，通过解析steps字段中的动作-观测序列重构决策环境。使用时应重点关注mc_return与reward字段的关联性，结合done标志位分析任务终止条件。数据加载可直接通过HuggingFace数据集库实现，利用内置的train分割进行模型训练与评估。建议将chat_completions与model_response进行对比分析，以探索语言模型在序列决策中的行为模式。

背景与挑战

背景概述

随着强化学习在序列决策任务中的深入应用，智能体在复杂环境中的推理能力成为研究焦点。该数据集由研究团队于2024年构建，聚焦于数独游戏环境下的非马尔可夫决策过程，旨在探索智能体在部分可观测状态中的长期推理机制。通过记录动作序列、奖励信号及模型响应等多维度交互数据，为研究语言模型与强化学习的融合提供了实验基础，推动了具身智能在逻辑推理领域的发展。

当前挑战

数独求解任务需应对高维动作空间与稀疏奖励的固有难题，非马尔可夫设定更要求智能体突破局部观测限制以捕捉长期依赖。数据构建过程中面临多轮对话状态对齐的复杂性，需精确标注动作-观察对并维持奖励函数的连贯性，同时需平衡探索策略与专家示范的数据分布差异，这对轨迹数据的完整性与一致性提出了严格要求。

常用场景

经典使用场景

在强化学习与智能体行为建模领域，该数据集通过记录数独游戏求解过程中的多步交互序列，为研究非马尔可夫决策过程提供了典型范例。其结构化的动作、观察与奖励轨迹，能够支撑智能体在部分可观测环境中的策略优化与序列决策分析，尤其适用于验证模型在长期依赖任务中的表现。

解决学术问题

该数据集主要针对非马尔可夫环境中信用分配与长期依赖建模的学术挑战，通过精确记录每一步的奖励反馈与状态转换，帮助研究者突破传统强化学习对完全可观测性的假设。其意义在于推动了部分可观测马尔可夫决策过程的理论发展，并为处理延迟奖励与历史依赖的算法提供了验证基础。

衍生相关工作

基于该数据集的特性，已衍生出多项关于分层强化学习与记忆增强网络的研究，例如结合LSTM与注意力机制的序列建模方法，用于解决长程依赖的信用分配问题。这些工作进一步拓展至对话系统与机器人控制领域，形成了跨任务的行为模仿学习范式。

以上内容由遇见数据集搜集并总结生成