SuperWriter-LM

arXiv2025-06-05 更新2025-06-06 收录

下载链接：

https://github.com/mozhu621/SuperWriter

下载链接

链接失效反馈

官方服务：

资源简介：

SuperWriter-LM数据集是一个用于训练大型语言模型进行长文本生成的数据集，由新加坡科技设计与设计大学和清华大学的研究团队创建。该数据集包含12000条高质量的训练数据，分为三个阶段：规划、写作和修改。数据集的设计旨在模拟人类写作过程，通过引入中间思维步骤来提高生成文本的流畅性、一致性和逻辑性。数据集的应用领域包括长文本生成、写作辅助等，旨在解决现有大型语言模型在生成长文本时存在的连贯性和逻辑性不足的问题。

The SuperWriter-LM dataset is a dataset for training large language models (LLMs) to perform long-text generation, created by a research team from the Singapore University of Technology and Design and Tsinghua University. This dataset contains 12,000 high-quality training samples, divided into three stages: planning, writing, and revising. It is designed to simulate the human writing process by introducing intermediate thinking steps to enhance the fluency, coherence, and logicality of generated texts. The applicable fields of this dataset include long-text generation, writing assistance and other scenarios, aiming to solve the problem of insufficient coherence and logicality in existing large language models when generating long texts.

提供机构：

新加坡科技设计与设计大学, 新加坡清华大学, 北京, 中国

创建时间：

2025-06-05

原始信息汇总

SuperWriter数据集概述

基本信息

名称: SuperWriter
类型: 长文本生成框架
语言: 支持英文和中文
模型规模: 7B参数
论文地址: arXiv:2506.04180
模型地址: HuggingFace (即将发布)

核心方法

三阶段生成流程

规划阶段(Plan)
- 角色: AI评论员↔作者
- 功能: 提炼主题结构，生成段落级大纲
- 关键技术: 故事工作坊对话、字数预算、一致性检查
写作阶段(Write)
- 角色: 思考者→作者
- 功能: 起草每个章节，保持章节连贯性
- 关键技术: 想法逻辑列举、上下文写作
优化阶段(Refine)
- 角色: 检查者→编辑
- 功能: 润色草稿，改进语言和逻辑
- 关键技术: 薄弱段落定位、针对性重写/合并

分层DPO训练

采用蒙特卡洛树搜索构建三层树结构(Plan_i, Draft_j, Refine_k)
叶子节点评分离散化为+2...-2
自底向上平均创建偏好对，使用单一DPO损失训练

实验结果

主要成果

WritingBench评分: 8.51分(总体排名第二，仅次于671B的DeepSeek-R1)
优势领域: 学术与工程、金融与商业、政治与法律、教育
同规模模型排名: 第一

用户查询胜率

评估标准: 胜=1，平=0.5，负=0
在7B规模模型中表现突出，与更大规模模型保持竞争力

代码指南

数据生成

Agent/Super_write_agent.py: 生成英文三阶段SFT数据
Agent/Super_write_agent_cn.py: 生成中文三阶段SFT数据
Agent/SFT-Process.py: 清理原始代理输出，生成统一JSONL文件

DPO数据构建

部署SFT模型评估服务
DPO/MCTS_inference.py: 通过MCTS探索组合
DPO/Step_1_query_evaluation_stand.py: 创建每查询评估标准
DPO/Step_2_LLM_judge.py: 评分所有MCTS叶子
DPO/create_dpo_pair.ipynb: 选择样本形成最终DPO对

推理流程

使用Inference/superwrite_gen.py中的模板依次运行三个提示

训练

基于LLaMA-Factory和360-LLaMA-Factory进行微调

引用

bibtex @misc{wu2025superwriterreflectiondrivenlongformgeneration, title={SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models}, author={Yuhao Wu and Yushi Bai and Zhiqiang Hu and Juanzi Li and Roy Ka-Wei Lee}, year={2025}, eprint={2506.04180}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.04180}, }

搜集汇总

数据集介绍

构建方式

SuperWriter-LM数据集的构建采用了三阶段结构化框架：规划（Planning）、写作（Writing）与精修（Refining）。在规划阶段，通过双代理协作生成逻辑严谨的写作大纲；写作阶段基于结构化大纲逐段生成文本，并嵌入显性思维步骤；精修阶段则通过系统化评估与针对性修改确保文本质量。区别于传统单次生成方法，该数据集创新性地将12,000条训练样本按三阶段划分，每个阶段包含4,000条数据，并通过蒙特卡洛树搜索（MCTS）实现层级化直接偏好优化（DPO），使模型能够内化人类写作的认知过程。

特点

该数据集的核心特征在于其思维导向的阶段性标注架构。每个样本均包含规划大纲、初稿与精修终稿的三阶段完整链条，并嵌入了写作过程中的认知信号（如逻辑推理、段落衔接策略等）。数据覆盖学术、金融、文学等六大领域，支持中英双语生成，且平均文本长度达16,000词，在WritingBench基准测试中展现出8.51的综合评分。特别值得注意的是，其层级化DPO机制通过逆向传播终稿质量信号，使模型在规划阶段即能预测后续写作效果，这种端到端的优化策略在7B参数规模下实现了对671B基线的性能超越。

使用方法

使用该数据集需遵循三阶段递进流程：首先输入用户查询至规划模块生成结构化大纲，随后基于大纲逐段执行'思考-写作'循环，最后通过精修模块进行全局优化。推理时建议采用SGLang系统管理长上下文缓存，并保持0.6的温度系数以平衡创造性。对于特定领域任务，可通过调整MCTS的评估维度权重（如学术写作侧重逻辑一致性，创意写作侧重新颖性）实现定制化输出。数据集配套的Write-judge六维评估体系（相关性、连贯性、清晰度等）可为生成结果提供量化质量反馈。

背景与挑战

背景概述

SuperWriter-LM数据集由新加坡科技设计大学和清华大学的研究团队于2025年创建，旨在解决大语言模型在生成长文本时面临的连贯性、逻辑一致性和文本质量维持等核心问题。该数据集通过引入结构化思维范式——包括规划、写作和精炼三个阶段——模拟人类专业作者的认知过程，显著提升了长文本生成的质量。基于这一框架，研究团队构建了一个监督微调数据集，并开发了分层直接偏好优化（DPO）方法，通过蒙特卡洛树搜索（MCTS）传播最终质量评估以优化每个生成步骤。实验结果表明，SuperWriter-LM在多样化的基准测试中均达到了最先进的性能，甚至在自动评估和人类评估中超越了更大规模的基线模型。

当前挑战

SuperWriter-LM数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，长文本生成需要解决随着序列长度增加而导致的连贯性下降、逻辑矛盾以及文本质量波动等问题。构建过程中的挑战则包括：1) 如何有效模拟人类写作的迭代过程（如规划、起草和修订）并将其嵌入到数据集中；2) 如何设计分层DPO方法以优化每个生成步骤，同时确保评估信号能够从最终输出反向传播到中间阶段；3) 如何平衡生成文本的长度与质量，避免在长文本任务中出现信息冗余或偏离主题的情况。

常用场景

经典使用场景

SuperWriter-LM数据集在长文本生成领域具有显著的应用价值，尤其在需要高度连贯性和逻辑一致性的场景中表现突出。该数据集通过模拟人类写作过程中的规划、撰写和修订三个阶段，为模型提供了丰富的结构化思维信号。在学术论文写作、小说创作和技术文档生成等场景中，SuperWriter-LM能够生成逻辑严密、内容详实的长文本，显著提升了生成文本的质量和可读性。

衍生相关工作

SuperWriter-LM数据集衍生了一系列相关研究工作，特别是在长文本生成和结构化思维建模领域。例如，基于该数据集的研究提出了分层DPO优化方法，进一步提升了模型在长文本生成中的表现。此外，该数据集还被用于开发新的评估基准，如WritingBench，为长文本生成任务的评估提供了标准化工具。这些工作不仅扩展了数据集的应用范围，还为后续研究提供了重要的参考和基础。

数据集最近研究