five

DataPilot/Creative-Writing-Dataset

收藏
Hugging Face2026-03-21 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DataPilot/Creative-Writing-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: odc-by language: - ja tags: - synthetic pretty_name: sdg-nexus size_categories: - 1K<n<10K --- # Creative Writing Dataset(クリエイティブライティングデータセット) ## 概要 本データセットは、[Aratako/Japanese-Creative-Writing-39.6k](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k) の `instruction_1` / `instruction_2` をそのまま保持し、`output_1` / `output_2` を **Kimi K2.5(Reasoning effort=high)** で再生成した **ロールプレイング創作データセット** です。 コンテンツレーティングは **R15以下** に制約されています。 生成にはSDG-LOOMという合成データ生成パイプラインを用いました。([sdg-loom](https://github.com/foxn2000/sdg_loom)) ## データの説明 | 項目 | 内容 | |------|------| | **件数** | 約5,000件 | | **形式** | JSONL(1行1JSON) | | **言語** | 日本語 | | **ターン数** | 1〜2ターン(instruction + 再生成output) | | **コンテンツレーティング** | R15以下 | | **ソースデータセット** | [Aratako/Japanese-Creative-Writing-39.6k](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k) | | **生成日** | 2026年3月 | | **ライセンス** | odc-by ( Open Data Commons Attribution License ) | 元データセットのinstructionを保持しつつ、Kimi K2.5のReasoning(effort=high)を用いて高品質な創作出力を再生成しています。Reasoningの思考過程も最終データに含まれます。 ### 創作品質ガイドライン - 五感を活かした鮮明な情景描写 - 比喩・暗喩・象徴などの文学的技法 - 「説明」ではなく「描写」で伝える(Show, don't tell) - テンプレート的な表現やクリシェの回避 - キャラクターの心理に深みと一貫性 - 読者の予想を裏切る意外性と伏線の回収 ### R15コンテンツレーティング制約 - 恋愛感情・感情的葛藤・戦闘シーンの一般的描写は許容 - 直接的な性描写・過度にグロテスクな暴力描写は禁止 - 恋愛シーンは「余韻」「想像の余地」を大切にする表現 ## 使用モデル | 項目 | 詳細 | |------|------| | **モデル** | [Kimi K2.5](https://platform.moonshot.cn/)(Moonshot AI) | | **APIモデル名** | `moonshotai/kimi-k2.5` | | **Reasoning** | ON(effort=high) | | **Temperature** | 0.85 | | **Max Tokens** | 16,000 | ## データ構造 ### 出力スキーマ(JSONL) 各行は `_row_index` と `conversations`(JSON文字列)を持ちます。 | フィールド | 型 | 説明 | |---|---|---| | `messages` | `array` | OpenAI messages形式の会話配列。system + 1〜2ターン分のuser/assistant。 | | `reasoning` | `string` | Reasoning effort レベル(`"high"`)。 | | `generator` | `string` | 生成モデル名(`"moonshotai/kimi-k2.5"`)。 | | `category` | `string` | データカテゴリ(`"creative_writing"`)。 | | `version` | `string` | データバージョン(`"v1.0"`)。 | | `other_data` | `object` | ソースデータセット名、コンテンツレーティング、ターン数。 | ### messages配列の構造 | role | 内容 | |------|------| | `system` | 元データセットのsystemプロンプト + 創作品質ガイドライン + R15制約 | | `user` | 元データセットの `instruction_1`(+任意で `instruction_2`) | | `assistant` | Kimi K2.5による再生成出力。`reasoning` フィールドに思考過程を含む | ### 出力例 ```json { "messages": [ {"role": "system", "content": "読者の心を掴む物語を創作するエキスパートとして...\n\n## 創作品質ガイドライン\n...\n\n## コンテンツレーティング制約(R15以下)\n..."}, {"role": "user", "content": "最弱スキル【隙間風】を持つ主人公がAランクパーティーから温情ある追放を受けるシーンを書いてください..."}, {"role": "assistant", "content": "酒場「深き樫」の個室は、黄昏の光を薄桃色に滲ませていた...", "reasoning": "このシーンでは主人公の内面の葛藤を..."}, {"role": "user", "content": "最高です!この勢いで続きを書いてください..."}, {"role": "assistant", "content": "街道を一人歩むハルの背中に...", "reasoning": "前の場面からの感情の流れを..."} ], "reasoning": "high", "generator": "moonshotai/kimi-k2.5", "category": "creative_writing", "version": "v1.0", "other_data": { "source_dataset": "Aratako/Japanese-Creative-Writing-39.6k", "content_rating": "R15以下", "num_turns": 2 } } ``` ## 注意事項 - 本データセットはLLMによる合成データです。生成された物語・キャラクターはすべてフィクションです。 - 元データセットのinstructionを保持しているため、ソースデータセットのライセンスも併せてご確認ください。 - R15以下の制約を適用していますが、一部のレコードに許容範囲の暴力・恋愛描写が含まれる場合があります。 built by kimi

--- 许可证: odc-by(Open Data Commons Attribution License) 语言: - 日语 标签: - 合成数据集 展示名称: sdg-nexus 数据规模分类: - 1000 < 样本数 < 10000 --- # 创意写作数据集(Creative Writing Dataset) ## 概述 本数据集完整保留了[Aratako/日语创意写作39.6k(Aratako/Japanese-Creative-Writing-39.6k)](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k)中的`instruction_1`与`instruction_2`,并使用**Kimi K2.5(推理强度=高)**对`output_1`与`output_2`进行了重新生成,属于**角色扮演创意创作数据集**。 本数据集的内容评级被限制为**R15及以下**。本次生成采用了名为SDG-LOOM的合成数据生成流水线([sdg-loom](https://github.com/foxn2000/sdg_loom))。 ## 数据说明 | 项目 | 内容 | |------|------| | **数据条数** | 约5,000条 | | **数据格式** | JSONL(每行1条JSON数据) | | **语言** | 日语 | | **对话轮次** | 1~2轮(指令 + 重新生成的输出) | | **内容评级** | R15及以下 | | **源数据集** | [Aratako/日语创意写作39.6k(Aratako/Japanese-Creative-Writing-39.6k)](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k) | | **生成时间** | 2026年3月 | | **许可证** | odc-by(Open Data Commons Attribution License) | 本数据集在保留源数据集指令的基础上,通过Kimi K2.5的高推理强度模式重新生成了高质量的创意创作输出,且推理过程也将包含在最终数据中。 ### 创作质量准则 - 运用五感营造鲜明的场景描写 - 采用比喻、暗喻、象征等文学修辞技法 - 以"展示而非告知"(Show, don't tell)的方式传递内容,避免直白说明 - 规避模板化表达与陈词滥调 - 赋予角色心理深度与行为一致性 - 设计打破读者预期的反转与伏笔回收 ### R15内容评级约束 - 允许对恋爱情感、情感纠葛、战斗场景进行常规描写 - 禁止直白的性描写与过度血腥的暴力描写 - 恋爱场景需采用注重"余韵"与"想象空间"的表达方式 ## 所用模型 | 项目 | 详细信息 | |------|----------| | **模型** | [Kimi K2.5(Kimi K2.5)](https://platform.moonshot.cn/)(Moonshot AI) | | **API模型名** | `moonshotai/kimi-k2.5` | | **推理模式** | 开启(推理强度=高) | | **温度系数** | 0.85 | | **最大Token数** | 16,000 | ## 数据结构 ### 输出Schema(JSONL) 每行数据为一个JSON对象,包含`_row_index`与`conversations`(JSON字符串)。 | 字段 | 类型 | 说明 | |---|---|---| | `messages` | 数组 | 采用OpenAI messages格式的对话数组,包含system提示词与1~2轮的user/assistant对话内容 | | `reasoning` | 字符串 | 推理强度等级,固定为`"high"` | | `generator` | 字符串 | 生成模型名称,固定为`"moonshotai/kimi-k2.5"` | | `category` | 字符串 | 数据分类,固定为`"creative_writing"` | | `version` | 字符串 | 数据版本,固定为`"v1.0"` | | `other_data` | 对象 | 包含源数据集名称、内容评级与对话轮次的元数据 | ### messages数组结构 | 角色 | 内容 | |------|------| | `system` | 源数据集的system提示词、创作质量准则与R15评级约束 | | `user` | 源数据集的`instruction_1`(可附加`instruction_2`) | | `assistant` | Kimi K2.5重新生成的输出,其思考过程将包含在`reasoning`字段中 | ### 输出示例 json { "messages": [ {"role": "system", "content": "作为能够抓住读者心灵的故事创作专家... ## 创作质量准则 ... ## 内容评级约束(R15及以下) ..."}, {"role": "user", "content": "请撰写一段拥有最弱技能【隙间风】的主人公被A级团队温情劝退的场景..."}, {"role": "assistant", "content": "“深橡”酒馆的包间中,黄昏的光线晕染成淡粉色...", "reasoning": "本场景中,主人公的内心纠葛通过环境描写得以体现..."}, {"role": "user", "content": "非常棒!请按照这个节奏续写..."}, {"role": "assistant", "content": "独自走在街道上的哈尔的背影...", "reasoning": "延续前一场景的情感脉络,展现主人公的心境变化..."} ], "reasoning": "high", "generator": "moonshotai/kimi-k2.5", "category": "creative_writing", "version": "v1.0", "other_data": { "source_dataset": "Aratako/Japanese-Creative-Writing-39.6k", "content_rating": "R15以下", "num_turns": 2 } } ## 注意事项 - 本数据集为大语言模型(LLM)生成的合成数据,所有生成的故事与角色均为虚构内容。 - 由于本数据集保留了源数据集的指令,请同时确认源数据集的许可证条款。 - 本数据集已采用R15及以下的评级约束,但部分数据条目可能包含符合评级要求的暴力与恋爱描写。 由Kimi构建
提供机构:
DataPilot
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作