GoLongRL
收藏🎯 GoLongRL 数据集详情总结
数据集概述
GoLongRL 是一个面向长上下文强化学习(RLVR)的、以能力为导向的全开源后训练数据集,由快手(Kwai)团队发布。该数据集包含 23,000 个样本,覆盖 9 种任务类型,旨在解决现有长上下文强化学习方法忽视多样化任务目标的问题。
- 发布机构:Kwai-Klear(快手)
- 论文链接:https://arxiv.org/abs/2605.19577
- 数据集地址:https://huggingface.co/datasets/Kwai-Klear/GoLongRL
- 模型地址:
- GoLongRL-4B:https://huggingface.co/Kwai-Klear/GoLongRL-4B
- GoLongRL-30B-A3B:https://huggingface.co/Kwai-Klear/GoLongRL-30B-A3B
核心创新
1. 能力导向的数据构建
基于长上下文能力分类体系,数据集覆盖以下 9 种任务类型,每种任务都配有对应的自然评估指标作为奖励函数:
| 任务类型 | 奖励函数 |
|---|---|
| 精确检索(Precise Retrieval) | EM(精确匹配) |
| 理解(Comprehension) | Accuracy(准确率) |
| 穷举检索(Exhaustive Retrieval) | F1 |
| 数值推理(Numerical Reasoning) | math_verify |
| 结构化抽取(Structured Extraction) | IoU |
| 结构化匹配(Structured Matching) | SubEM |
| 分级排序(Graded Ranking) | NDCG |
| 序列排序(Sequence Ordering) | Pairwise |
| 摘要(Summarization) | ROUGE-L |
2. TMN-Reweight 多任务优化方法
一种多任务对齐方法,包含两个核心组件:
- 任务级均值归一化(Task-Level Mean Normalization):在任务层面而非提示层面进行优势归一化,解决跨任务奖励尺度不一致问题
- 难度自适应重加权(Difficulty-Adaptive Reweighting):对非常简单或非常困难的提示降低权重,减少噪声
在 4B 规模下相比标准 GRPO 平均提升 0.8 分,主要在聚合密集型基准(如 CorpusQA)上表现更佳。
训练数据与算法
训练数据集
- 数据集名称:Kwai-Klear/GoLongRL
- 样本数量:23,000 条
- 任务类型数:9 种
- 数据格式:JSONL 格式(train.jsonl / test.jsonl)
支持算法
- GRPO:标准群体相对策略优化,每组内进行优势归一化
- TMN-GRPO:在奖励类型组内进行优势归一化,防止高方差任务主导梯度,支持难度重加权
支持模型
- Qwen3-4B
- Qwen3-30B-A3B(MoE 架构)
评估基准
覆盖 三个能力维度 的 QwenLong-Benchmarks:
| 评估维度 | 基准测试 |
|---|---|
| 长上下文 | LongBench-V2、MRCR(≤128K / 128K–512K / 512K–1M)、Frames、LongBench QA、DocMath、CorpusQA(≤128K / ≤1M) |
| 通用能力 | MMLU-Pro、AIME 2024/2025、GPQA-Diamond |
| 记忆能力 | BFCL-V4(记忆子集)、LongMemEval |
超长评估(最长 100 万 token)采用 YaRN RoPE 缩放。
关键成果
- 在相同的标准 GRPO 设置下,GoLongRL 数据集在 4B 和 30B 规模上均优于闭源的 QwenLong-L1.5 数据集(4B 平均 +6.1,30B 平均 +2.6)
- TMN-Reweight 将 4B 规模的性能进一步提升至平均 63.0,超越使用专用 AEPO 算法的 QwenLong-L1.5(59.4)
- GoLongRL-30B-A3B 在长上下文基准上的平均性能达到 69.8,与 DeepSeek-R1-0528(68.7)和 Qwen3-235B-A22B-Thinking(68.5)相当,但使用更小的激活参数预算
引用信息
@misc{lv2026golongrlcapabilityorientedlongcontext, title={GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment}, author={Minxuan Lv and Tiehua Mei and Tanlong Du and Junmin Chen and Zhenpeng Su and Ziyang Chen and Ziqi Wang and Zhennan Wu and Ruotong Pan and jian Liang and Ruiming Tang and Han Li}, year={2026}, eprint={2605.19577}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.19577}, }




