DataPilot/Creative-Writing-Dataset
收藏Hugging Face2026-03-21 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DataPilot/Creative-Writing-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: odc-by
language:
- ja
tags:
- synthetic
pretty_name: sdg-nexus
size_categories:
- 1K<n<10K
---
# Creative Writing Dataset(クリエイティブライティングデータセット)
## 概要
本データセットは、[Aratako/Japanese-Creative-Writing-39.6k](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k) の `instruction_1` / `instruction_2` をそのまま保持し、`output_1` / `output_2` を **Kimi K2.5(Reasoning effort=high)** で再生成した **ロールプレイング創作データセット** です。
コンテンツレーティングは **R15以下** に制約されています。
生成にはSDG-LOOMという合成データ生成パイプラインを用いました。([sdg-loom](https://github.com/foxn2000/sdg_loom))
## データの説明
| 項目 | 内容 |
|------|------|
| **件数** | 約5,000件 |
| **形式** | JSONL(1行1JSON) |
| **言語** | 日本語 |
| **ターン数** | 1〜2ターン(instruction + 再生成output) |
| **コンテンツレーティング** | R15以下 |
| **ソースデータセット** | [Aratako/Japanese-Creative-Writing-39.6k](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k) |
| **生成日** | 2026年3月 |
| **ライセンス** | odc-by ( Open Data Commons Attribution License ) |
元データセットのinstructionを保持しつつ、Kimi K2.5のReasoning(effort=high)を用いて高品質な創作出力を再生成しています。Reasoningの思考過程も最終データに含まれます。
### 創作品質ガイドライン
- 五感を活かした鮮明な情景描写
- 比喩・暗喩・象徴などの文学的技法
- 「説明」ではなく「描写」で伝える(Show, don't tell)
- テンプレート的な表現やクリシェの回避
- キャラクターの心理に深みと一貫性
- 読者の予想を裏切る意外性と伏線の回収
### R15コンテンツレーティング制約
- 恋愛感情・感情的葛藤・戦闘シーンの一般的描写は許容
- 直接的な性描写・過度にグロテスクな暴力描写は禁止
- 恋愛シーンは「余韻」「想像の余地」を大切にする表現
## 使用モデル
| 項目 | 詳細 |
|------|------|
| **モデル** | [Kimi K2.5](https://platform.moonshot.cn/)(Moonshot AI) |
| **APIモデル名** | `moonshotai/kimi-k2.5` |
| **Reasoning** | ON(effort=high) |
| **Temperature** | 0.85 |
| **Max Tokens** | 16,000 |
## データ構造
### 出力スキーマ(JSONL)
各行は `_row_index` と `conversations`(JSON文字列)を持ちます。
| フィールド | 型 | 説明 |
|---|---|---|
| `messages` | `array` | OpenAI messages形式の会話配列。system + 1〜2ターン分のuser/assistant。 |
| `reasoning` | `string` | Reasoning effort レベル(`"high"`)。 |
| `generator` | `string` | 生成モデル名(`"moonshotai/kimi-k2.5"`)。 |
| `category` | `string` | データカテゴリ(`"creative_writing"`)。 |
| `version` | `string` | データバージョン(`"v1.0"`)。 |
| `other_data` | `object` | ソースデータセット名、コンテンツレーティング、ターン数。 |
### messages配列の構造
| role | 内容 |
|------|------|
| `system` | 元データセットのsystemプロンプト + 創作品質ガイドライン + R15制約 |
| `user` | 元データセットの `instruction_1`(+任意で `instruction_2`) |
| `assistant` | Kimi K2.5による再生成出力。`reasoning` フィールドに思考過程を含む |
### 出力例
```json
{
"messages": [
{"role": "system", "content": "読者の心を掴む物語を創作するエキスパートとして...\n\n## 創作品質ガイドライン\n...\n\n## コンテンツレーティング制約(R15以下)\n..."},
{"role": "user", "content": "最弱スキル【隙間風】を持つ主人公がAランクパーティーから温情ある追放を受けるシーンを書いてください..."},
{"role": "assistant", "content": "酒場「深き樫」の個室は、黄昏の光を薄桃色に滲ませていた...", "reasoning": "このシーンでは主人公の内面の葛藤を..."},
{"role": "user", "content": "最高です!この勢いで続きを書いてください..."},
{"role": "assistant", "content": "街道を一人歩むハルの背中に...", "reasoning": "前の場面からの感情の流れを..."}
],
"reasoning": "high",
"generator": "moonshotai/kimi-k2.5",
"category": "creative_writing",
"version": "v1.0",
"other_data": {
"source_dataset": "Aratako/Japanese-Creative-Writing-39.6k",
"content_rating": "R15以下",
"num_turns": 2
}
}
```
## 注意事項
- 本データセットはLLMによる合成データです。生成された物語・キャラクターはすべてフィクションです。
- 元データセットのinstructionを保持しているため、ソースデータセットのライセンスも併せてご確認ください。
- R15以下の制約を適用していますが、一部のレコードに許容範囲の暴力・恋愛描写が含まれる場合があります。
built by kimi
---
许可证: odc-by(Open Data Commons Attribution License)
语言:
- 日语
标签:
- 合成数据集
展示名称: sdg-nexus
数据规模分类:
- 1000 < 样本数 < 10000
---
# 创意写作数据集(Creative Writing Dataset)
## 概述
本数据集完整保留了[Aratako/日语创意写作39.6k(Aratako/Japanese-Creative-Writing-39.6k)](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k)中的`instruction_1`与`instruction_2`,并使用**Kimi K2.5(推理强度=高)**对`output_1`与`output_2`进行了重新生成,属于**角色扮演创意创作数据集**。
本数据集的内容评级被限制为**R15及以下**。本次生成采用了名为SDG-LOOM的合成数据生成流水线([sdg-loom](https://github.com/foxn2000/sdg_loom))。
## 数据说明
| 项目 | 内容 |
|------|------|
| **数据条数** | 约5,000条 |
| **数据格式** | JSONL(每行1条JSON数据) |
| **语言** | 日语 |
| **对话轮次** | 1~2轮(指令 + 重新生成的输出) |
| **内容评级** | R15及以下 |
| **源数据集** | [Aratako/日语创意写作39.6k(Aratako/Japanese-Creative-Writing-39.6k)](https://huggingface.co/datasets/Aratako/Japanese-Creative-Writing-39.6k) |
| **生成时间** | 2026年3月 |
| **许可证** | odc-by(Open Data Commons Attribution License) |
本数据集在保留源数据集指令的基础上,通过Kimi K2.5的高推理强度模式重新生成了高质量的创意创作输出,且推理过程也将包含在最终数据中。
### 创作质量准则
- 运用五感营造鲜明的场景描写
- 采用比喻、暗喻、象征等文学修辞技法
- 以"展示而非告知"(Show, don't tell)的方式传递内容,避免直白说明
- 规避模板化表达与陈词滥调
- 赋予角色心理深度与行为一致性
- 设计打破读者预期的反转与伏笔回收
### R15内容评级约束
- 允许对恋爱情感、情感纠葛、战斗场景进行常规描写
- 禁止直白的性描写与过度血腥的暴力描写
- 恋爱场景需采用注重"余韵"与"想象空间"的表达方式
## 所用模型
| 项目 | 详细信息 |
|------|----------|
| **模型** | [Kimi K2.5(Kimi K2.5)](https://platform.moonshot.cn/)(Moonshot AI) |
| **API模型名** | `moonshotai/kimi-k2.5` |
| **推理模式** | 开启(推理强度=高) |
| **温度系数** | 0.85 |
| **最大Token数** | 16,000 |
## 数据结构
### 输出Schema(JSONL)
每行数据为一个JSON对象,包含`_row_index`与`conversations`(JSON字符串)。
| 字段 | 类型 | 说明 |
|---|---|---|
| `messages` | 数组 | 采用OpenAI messages格式的对话数组,包含system提示词与1~2轮的user/assistant对话内容 |
| `reasoning` | 字符串 | 推理强度等级,固定为`"high"` |
| `generator` | 字符串 | 生成模型名称,固定为`"moonshotai/kimi-k2.5"` |
| `category` | 字符串 | 数据分类,固定为`"creative_writing"` |
| `version` | 字符串 | 数据版本,固定为`"v1.0"` |
| `other_data` | 对象 | 包含源数据集名称、内容评级与对话轮次的元数据 |
### messages数组结构
| 角色 | 内容 |
|------|------|
| `system` | 源数据集的system提示词、创作质量准则与R15评级约束 |
| `user` | 源数据集的`instruction_1`(可附加`instruction_2`) |
| `assistant` | Kimi K2.5重新生成的输出,其思考过程将包含在`reasoning`字段中 |
### 输出示例
json
{
"messages": [
{"role": "system", "content": "作为能够抓住读者心灵的故事创作专家...
## 创作质量准则
...
## 内容评级约束(R15及以下)
..."},
{"role": "user", "content": "请撰写一段拥有最弱技能【隙间风】的主人公被A级团队温情劝退的场景..."},
{"role": "assistant", "content": "“深橡”酒馆的包间中,黄昏的光线晕染成淡粉色...", "reasoning": "本场景中,主人公的内心纠葛通过环境描写得以体现..."},
{"role": "user", "content": "非常棒!请按照这个节奏续写..."},
{"role": "assistant", "content": "独自走在街道上的哈尔的背影...", "reasoning": "延续前一场景的情感脉络,展现主人公的心境变化..."}
],
"reasoning": "high",
"generator": "moonshotai/kimi-k2.5",
"category": "creative_writing",
"version": "v1.0",
"other_data": {
"source_dataset": "Aratako/Japanese-Creative-Writing-39.6k",
"content_rating": "R15以下",
"num_turns": 2
}
}
## 注意事项
- 本数据集为大语言模型(LLM)生成的合成数据,所有生成的故事与角色均为虚构内容。
- 由于本数据集保留了源数据集的指令,请同时确认源数据集的许可证条款。
- 本数据集已采用R15及以下的评级约束,但部分数据条目可能包含符合评级要求的暴力与恋爱描写。
由Kimi构建
提供机构:
DataPilot



