five

COIG-Writer

收藏
Hugging Face2025-05-10 更新2025-05-11 收录
下载链接:
https://huggingface.co/datasets/m-a-p/COIG-Writer
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集收集了大量高质量的中文创意写作作品和其它文本类型(如科普文章),每个作品都附有详细的“Query”(提示)和“Thought”(思考过程)。该数据集旨在解决机器生成文本中常见的“AI风味”问题,如逻辑不一致、缺乏个性、分析肤浅、语言过于复杂或叙事发展薄弱等。主要目标是提供资源,帮助训练语言模型生成内容流畅、具有深度连贯性、个性、洞察力和复杂叙事结构的文本,更接近人类创作的作品。数据集涵盖了大约50个子领域的中文创意写作和其它文本生成任务。所有文本均为简体中文(zh-CN)。每个数据实例包括以下组件:`query_type`、`query`、`thought`、`answer`、`link`和`score`。

This dataset contains a large corpus of high-quality Chinese creative writing works and other text types (e.g., popular science articles), with each piece accompanied by detailed "Query" (prompt) and "Thought" (thinking process). This dataset aims to address common "AI-style" issues in machine-generated text, such as logical inconsistency, lack of personality, superficial analysis, overly complex language, and underdeveloped narrative arcs. Its primary goal is to provide resources to train language models to produce text that is fluent, deeply coherent, personalized, insightful, and structured with complex narrative frameworks, closely resembling human-created works. The dataset covers Chinese creative writing and other text generation tasks across approximately 50 subfields. All texts are in Simplified Chinese (zh-CN). Each data instance includes the following components: `query_type`, `query`, `thought`, `answer`, `link`, and `score`.
提供机构:
Multimodal Art Projection
创建时间:
2025-05-09
搜集汇总
数据集介绍
main_image_url
构建方式
在中文创意写作领域,高质量语料的稀缺性促使COIG-Writer数据集采用人机协同的精细化构建策略。该数据集从豆瓣、知乎等权威内容平台筛选具有高互动性与完整逻辑的优质文本作为答案素材,通过大语言模型生成初始提示与思考过程后,由专业标注者进行多轮迭代优化。标注流程包含消除幻觉信息、强化逻辑关联性、确保思维过程符合人类创作路径等关键步骤,最终由质量检查员对全要素进行终审,形成兼具创造力与结构严谨性的数据实例。
特点
该数据集的显著特征在于其首创的思维过程显性化标注体系,每个实例均包含提示类型、结构化问题、思维链与参考答案四元组。思维组件以元认知形式解构创作动机、结构规划与风格选择,覆盖诗歌、科普文章等50余种文体。评分系统通过多维量化指标呈现内容质量与创新度,其语言风格融合专业术语与人文关怀,有效规避机器文本常见的逻辑断裂与过度修饰问题,为模型提供从意图理解到成文落笔的完整认知图谱。
使用方法
研究者可借助该数据集开发具备深度推理能力的中文创作辅助系统,通过解析思维链与答案的映射关系训练模型生成兼具逻辑严密性与风格独特性的文本。在教育领域可用于构建写作教学工具,引导学生掌握从选题立意到结构铺陈的完整创作流程。使用时需注意结合查询类型字段进行任务适配,并参考多维评分数据筛选训练样本,同时应考量源平台偏好与文体分布对模型泛化能力的影响。
背景与挑战
背景概述
在自然语言处理领域,高质量中文创作数据集长期面临内容同质化与逻辑深度不足的瓶颈。COIG-Writer数据集由研究团队于2024年构建,其核心目标在于突破机器生成文本存在的“AI腔调”困境,通过融合查询类型、思维链与文本实体的三元结构,为语言模型提供具备人类创作思维范式的训练资源。该数据集覆盖诗歌、散文、科普文章等50余种文体,所有文本均采用简体中文,其创新性体现在首次系统化解构创作过程的认知逻辑,对提升中文生成模型的叙事连贯性与思维深度具有里程碑意义。
当前挑战
该数据集需应对双重挑战:在领域问题层面,需解决中文创作中逻辑断裂、个性缺失与叙事浅表化等核心难题,要求模型不仅能模仿语言风格,更需掌握人类作者的构思决策过程;在构建过程中,面临源文本质量筛选的复杂性,需通过多轮人机协同标注确保思维链的真实性与创造性,同时需平衡不同文体间的分布差异,并克服主观评分体系带来的标注一致性挑战。
常用场景
经典使用场景
在自然语言生成研究领域,COIG-Writer数据集为探索创造性写作的认知机制提供了独特视角。该数据集通过结构化呈现写作提示、思维过程与最终文本的对应关系,成为训练语言模型理解创作逻辑的重要资源。研究者可基于其丰富的诗歌、散文、科普文章等50余种文体样本,分析人类作者从构思到成文的完整认知链条,进而提升模型在叙事连贯性、风格一致性与情感表达等方面的生成质量。
实际应用
在实践层面,该数据集支撑着智能写作辅助系统的开发进程。教育机构可借助其构建写作教学平台,通过解析优秀文本的创作思维帮助学生提升结构化表达能力。媒体行业则能利用其训练具备风格迁移能力的内容生成工具,实现从新闻稿件到文学创作的多场景适配。这些应用显著降低了专业写作的门槛,同时保持了人类作者特有的思辨深度与艺术个性。
衍生相关工作
基于该数据集衍生的研究已形成系列创新成果。部分工作聚焦于思维链的可视化分析,通过构建创作决策树揭示不同文体的构思规律;另有研究开发了多层次质量评估框架,将思维过程纳入生成文本的综合评价体系。这些探索不仅丰富了认知启发生成模型的理论内涵,更推动了跨模态创作、个性化叙事生成等前沿方向的技术突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作