COIG-Writer
收藏arXiv2025-10-16 更新2025-11-05 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/COIG-Writer
下载链接
链接失效反馈官方服务:
资源简介:
COIG-Writer是一个高质量的中文创意写作数据集,它通过系统性地逆向工程高质量文本,捕捉到了多样化的输出及其背后的思考过程。该数据集包含了1,665个精心策划的三元组,涵盖了51个类别,每个三元组都包含一个逆向工程提示、详细的创意推理记录以及最终文本。与现有只提供输入-输出对的数据集不同,COIG-Writer结合了多类别覆盖和明确的推理链,使过程级别的创意决策学习成为可能。数据集的构建过程包括系统性地收集和过滤高质量文本,然后通过专家逆向工程提取隐含的创意推理。
COIG-Writer is a high-quality Chinese creative writing dataset that captures diverse outputs and their underlying thinking processes via systematically reverse-engineering high-quality texts. This dataset contains 1,665 carefully curated triplets spanning 51 categories, where each triplet consists of a reverse-engineered prompt, a detailed record of creative reasoning, and the final generated text. Unlike existing datasets that only provide input-output pairs, COIG-Writer combines multi-category coverage and explicit reasoning chains, enabling process-level learning of creative decision-making. The dataset's construction process involves systematically collecting and filtering high-quality texts, then extracting implicit creative reasoning through expert-led reverse engineering.
提供机构:
2077 IAI M-A-P
创建时间:
2025-10-16
搜集汇总
数据集介绍

构建方式
在中文创意写作数据稀缺的背景下,COIG-Writer采用逆向工程方法构建高质量数据集。研究团队通过系统化收集涵盖51种文学体裁的原始文本,经过多阶段质量筛选与专家标注,将每篇文本解构为三个核心组成部分:逆向还原的创作提示、详细记录决策过程的创意推理链以及最终成文。这种构建方式通过人工标注与大语言模型协同验证,确保每个数据三元组在逻辑连贯性与创作意图表达上达到专业标准,最终形成1,665个经过六维质量评估的完整样本。
特点
该数据集最显著的特征在于其独特的创意推理过程标注,突破了传统输入输出配对的数据范式。每个样本平均包含283字符的创作提示、1,089字符的推理过程与2,214字符的完整文本,完整呈现了从灵感到成文的创作思维轨迹。数据集覆盖沟通写作、小说创作、非虚构写作等七大类别,既包含传统文学形式也涵盖网络亚文化表达,在保持体裁多样性的同时确保了文化语境的真实性。这种多层次结构为研究创意写作的认知过程提供了前所未有的细粒度数据支持。
使用方法
使用该数据集时需遵循特定配比原则,实验表明创意样本与通用样本需保持至少1:12的平衡比例才能实现最佳效果。在模型训练过程中,应将数据三元组作为整体输入,使模型同步学习创作提示解析、推理链构建与文本生成的完整流程。评估阶段需采用人工偏好评价与类型标记比率分析相结合的方式,重点关注叙事逻辑连贯性与语言表达自然度的平衡。对于跨语言应用场景,需注意该数据集展现的文化特异性,中文创意能力无法直接迁移至其他语言体系。
背景与挑战
背景概述
COIG-Writer数据集由M-A-P研究团队于2025年提出,旨在解决大语言模型在中文创意写作中存在的系统性缺陷。该数据集通过逆向工程方法,从高质量中文文本中提取创作思维过程,构建了包含1,665个三元组的语料库,涵盖51种文学体裁。其核心创新在于首次将过程监督机制引入创意写作领域,通过显性推理链揭示叙事逻辑与语言表达的交互作用,为中文创意写作研究提供了首个具有思维过程标注的高质量数据集。
当前挑战
该数据集面临的领域挑战在于突破创意写作中叙事模板化、风格同质化与文化真实性缺失三大困境。构建过程中需克服多重技术难点:高质量文本的逆向工程需要专家标注团队系统还原隐含创作逻辑;多维度质量评估体系需平衡语言流畅性与叙事连贯性;文化适应性要求确保中文特有的起承转合叙事结构得以准确呈现。此外,数据稀缺性导致模型需在1:12的创意与通用数据配比下才能稳定发挥过程监督优势,而词汇多样性悖论更挑战了传统文本评估准则。
常用场景
经典使用场景
在中文创意写作领域,COIG-Writer数据集通过其独特的逆向工程三元组结构,为研究叙事逻辑与语言表达的交互机制提供了经典实验平台。该数据集覆盖51种文学体裁,每个样本包含逆向重构的创作提示、详细推理过程及最终文本,使得研究者能够深入分析创作决策的思维轨迹。在模型训练过程中,该数据集常被用于验证过程监督对创意写作的增强效果,特别是在探索逻辑脚手架与语言基础的最优配比方面具有重要价值。
实际应用
在实际应用层面,COIG-Writer为中文创意内容生成系统提供了核心训练资源。其覆盖的社交媒体创作、广告文案、小说写作等场景,可直接赋能智能写作助手、虚拟角色对话系统等产品。通过植入人类创作的过程性思维,该系统能生成更具文化适应性和逻辑连贯性的文本,显著提升教育领域的写作教学效率与文化产业的内容生产质量。在跨文化传播场景中,该数据集特有的中式叙事结构可为本土化内容创作提供范式参考。
衍生相关工作
该数据集推动了过程监督在创意计算领域的系列研究,衍生出基于推理链的叙事生成框架、文化适配的创作评估体系等重要工作。其揭示的TTR悖论现象催生了新型文本质量诊断指标,而语言特异性结论促进了多模态创意数据的构建探索。在方法论层面,其逆向工程技术和多维度质量评估体系已被应用于诗歌生成、戏剧脚本创作等垂直领域,形成了以思维过程为核心的创意计算新范式。
以上内容由遇见数据集搜集并总结生成



