continue_vs_terminate_neg_Qwen3-1.7B_DAPO-Math-en_BATCH

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/graliuce/continue_vs_terminate_neg_Qwen3-1.7B_DAPO-Math-en_BATCH

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个配置的数据集，每个配置都包括问题、答案、初始响应、初始奖励、成功率、进度、动作、前缀、分词对话、响应序列、奖励序列和平均奖励等特征。数据集还包含不同的测试分割，每个分割具有特定数量的示例和字节。每个配置的数据集大小和下载大小也都有提及。

创建时间：

2025-05-09

原始信息汇总

数据集概述

基本信息

数据集名称: continue_vs_terminate_neg_Qwen3-1.7B_DAPO-Math-en_BATCH
数据集地址: https://huggingface.co/datasets/graliuce/continue_vs_terminate_neg_Qwen3-1.7B_DAPO-Math-en_BATCH

数据集配置

数据集包含多个配置，每个配置的名称格式为 Qwen3-1.7B_1000_2000_X_Y，其中 X 和 Y 表示不同的范围。

通用特征

所有配置包含以下特征：

problem: 字符串类型，表示问题。
answer: 字符串类型，表示答案。
init_response: 字符串类型，表示初始响应。
init_reward: int64类型，表示初始奖励。
success_rate: float64类型，表示成功率。
progress: 字符串类型，表示进度。
action: 字符串类型，表示动作。
prefix: 字符串类型，表示前缀。
tokenized_conv: 字符串类型，表示标记化的对话。
responses: 字符串序列，表示响应列表。
rewrads: int64序列，表示奖励列表。
mean_reward: float64类型，表示平均奖励。

数据分割

所有配置仅包含 test 分割，具体信息如下：

num_bytes: 数据大小（字节）。
num_examples: 示例数量（大部分为200，部分为190或196、192）。
download_size: 下载大小（字节）。
dataset_size: 数据集大小（字节）。

示例配置详情

以下是部分配置的详细信息：

Qwen3-1.7B_1000_2000_0_10

test 分割:
- num_bytes: 56142211
- num_examples: 200
- download_size: 14938811
- dataset_size: 56142211

Qwen3-1.7B_1000_2000_100_110

test 分割:
- num_bytes: 41998377
- num_examples: 200
- download_size: 11112483
- dataset_size: 41998377

Qwen3-1.7B_1000_2000_10_20

test 分割:
- num_bytes: 49530880
- num_examples: 200
- download_size: 12839999
- dataset_size: 49530880

Qwen3-1.7B_1000_2000_110_120

test 分割:
- num_bytes: 56419518
- num_examples: 200
- download_size: 14525907
- dataset_size: 56419518

Qwen3-1.7B_1000_2000_120_130

test 分割:
- num_bytes: 43719836
- num_examples: 200
- download_size: 11629819
- dataset_size: 43719836

Qwen3-1.7B_1000_2000_130_140

test 分割:
- num_bytes: 61587095
- num_examples: 200
- download_size: 16064476
- dataset_size: 61587095

Qwen3-1.7B_1000_2000_140_150

test 分割:
- num_bytes: 56062967
- num_examples: 190
- download_size: 15233671
- dataset_size: 56062967

Qwen3-1.7B_1000_2000_150_160

test 分割:
- num_bytes: 54283226
- num_examples: 190
- download_size: 14652445
- dataset_size: 54283226

Qwen3-1.7B_1000_2000_160_170

test 分割:
- num_bytes: 47540540
- num_examples: 200
- download_size: 12495915
- dataset_size: 47540540

Qwen3-1.7B_1000_2000_170_180

test 分割:
- num_bytes: 53472592
- num_examples: 200
- download_size: 14376332
- dataset_size: 53472592

Qwen3-1.7B_1000_2000_180_190

test 分割:
- num_bytes: 42476229
- num_examples: 196
- download_size: 11150322
- dataset_size: 42476229

Qwen3-1.7B_1000_2000_190_200

test 分割:
- num_bytes: 50618368
- num_examples: 192
- download_size: 13980077
- dataset_size: 50618368

Qwen3-1.7B_1000_2000_200_210

test 分割:
- num_bytes: 47286444
- num_examples: 200
- download_size: 12424750
- dataset_size: 47286444

Qwen3-1.7B_1000_2000_20_30

test 分割:
- num_bytes: 47982947
- num_examples: 200
- download_size: 12934810
- dataset_size: 47982947

Qwen3-1.7B_1000_2000_210_220

test 分割:
- num_bytes: 55550610
- num_examples: 200
- download_size: 14757987
- dataset_size: 55550610

Qwen3-1.7B_1000_2000_220_230

test 分割:
- num_bytes: 44495985
- num_examples: 200
- download_size: 11654149
- dataset_size: 44495985

Qwen3-1.7B_1000_2000_230_240

test 分割:
- num_bytes: 42616378
- num_examples: 200
- download_size: 11922401
- dataset_size: 42616378

Qwen3-1.7B_1000_2000_240_250

test 分割:
- num_bytes: 56421414
- num_examples: 200
- download_size: 14563167
- dataset_size: 56421414

Qwen3-1.7B_1000_2000_250_260

test 分割:
- num_bytes: 56971418
- num_examples: 200
- download_size: 15435224
- dataset_size: 56971418

Qwen3-1.7B_1000_2000_260_270

test 分割:
- num_bytes: 54767129
- num_examples: 200
- download_size: 14242682
- dataset_size: 54767129

Qwen3-1.7B_1000_2000_270_280

test 分割:
- num_bytes: 59442042
- num_examples: 200
- download_size: 15805996
- dataset_size: 59442042

Qwen3-1.7B_1000_2000_280_290

test 分割:
- num_bytes: 45008480
- num_examples: 200
- download_size: 11214709
- dataset_size: 45008480

Qwen3-1.7B_1000_2000_290_300

test 分割:
- num_bytes: 56907723
- num_examples: 200
- download_size: 15816655
- dataset_size: 56907723

Qwen3-1.7B_1000_2000_300_310

test 分割:
- num_bytes: 54418924
- num_examples: 200
- download_size: 14495883
- dataset_size: 54418924

Qwen3-1.7B_1000_2000_30_40

test 分割:
- num_bytes: 71413656
- num_examples: 200
- download_size: 19163798
- dataset_size: 71413656

Qwen3-1.7B_1000_2000_310_320

test 分割:
- num_bytes: 54654442
- num_examples: 200
- download_size: 15114314
- dataset_size: 54654442

Qwen3-1.7B_1000_2000_320_330

test 分割:
- num_bytes: 53648604
- num_examples: 200
- download_size: 14214651
- dataset_size: 53648604

Qwen3-1.7B_1000_2000_330_340

test 分割:
- num_bytes: 47096511
- num_examples: 200
- download_size: 12457581
- dataset_size: 47096511

Qwen3-1.7B_1000_2000_340_350

test 分割:
- num_bytes: 56085935
- num_examples: 200
- download_size: 14586371
- dataset_size: 56085935

Qwen3-1.7B_1000_2000_350_360

test 分割:
- num_bytes: 47275991
- num_examples: 200
- download_size: 12483954
- dataset_size: 47275991

Qwen3-1.7B_1000_2000_360_370

test 分割:
- num_bytes: 59441706
- num_examples: 200
- download_size: 15684365
- dataset_size: 59441706

Qwen3-1.7B_1000_2000_370_380

test 分割:
- 信息不完整（数据截断）。

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，该数据集通过Qwen3-1.7B模型对数学问题进行多轮对话式求解实验构建而成。采用分批次处理策略，每批数据包含200个数学问题实例，覆盖从基础到高阶的广泛难度范围。数据采集过程中记录了初始响应、多轮对话轨迹、奖励信号及成功率等关键指标，形成结构化评估框架。

特点

数据集以序列化对话为核心特征，完整保留了语言模型求解数学问题的动态过程。每个实例包含问题描述、标准答案、初始响应及多轮交互记录，并附带量化评估指标如即时奖励、平均奖励和成功率。独特的tokenized_conv字段实现了对话序列的标准化编码，便于模型训练与分析。

使用方法

该数据集适用于数学问题求解模型的强化学习训练与评估。研究人员可基于多轮对话数据优化模型决策策略，利用奖励信号进行策略梯度训练。测试集划分支持模型性能的标准化评估，通过分析success_rate与mean_reward等指标可量化模型改进效果。tokenized_conv字段为序列建模任务提供即用的输入表示。

背景与挑战

背景概述

continue_vs_terminate_neg_Qwen3-1.7B_DAPO-Math-en_BATCH数据集聚焦于数学问题求解领域，旨在通过强化学习框架优化语言模型在数学推理任务中的表现。该数据集基于Qwen3-1.7B模型构建，记录了模型在数学问题求解过程中的决策路径、奖励信号及响应序列，为研究语言模型的持续学习与任务终止机制提供了实证基础。其核心价值在于通过结构化数据揭示模型在复杂推理场景中的动态行为规律，对推动可解释性AI和自适应学习系统的研究具有显著意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，数学推理任务需处理符号逻辑与自然语言的混合表征，模型需平衡生成结果的准确性与推理步骤的完整性；在构建过程中，动态奖励信号的量化存在主观性偏差，且多轮交互数据的标注成本高昂。同时，序列化决策数据的稀疏奖励问题与长程依赖特性，对强化学习算法的训练效率提出了严峻考验。

常用场景

经典使用场景

在数学问题求解领域，该数据集通过记录Qwen3-1.7B模型对数学问题的初始响应、奖励值及多轮对话轨迹，为研究语言模型在复杂推理任务中的动态决策过程提供了标准化实验平台。其多维度特征设计特别适合分析模型在continue/terminate决策时的策略演化规律。

实际应用

在教育科技领域，该数据集可优化智能辅导系统的决策模块，通过分析历史对话中的action-reward模式，提升系统在解题引导时的干预时机判断。工业界可基于其构建更可靠的数学对话引擎，特别是在分步求解场景中实现动态难度调整。

衍生相关工作

该数据集已催生多个重要研究方向，包括基于强化学习的对话策略优化框架、数学推理过程的因果分析模型，以及多模态奖励机制的联合训练方法。相关成果在ACL、NeurIPS等会议上形成了专用赛道，推动了可决策对话系统的理论发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集