DataPilot/AItuber-Personas-Japan
收藏Hugging Face2026-03-16 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DataPilot/AItuber-Personas-Japan
下载链接
链接失效反馈官方服务:
资源简介:
---
license: odc-by
language:
- ja
tags:
- synthetic
pretty_name: sdg-nexus
size_categories:
- n<1K
---
# AItuber Persona Dataset
## 概要
本データセットは、AItuber(AI VTuber)のペルソナ設計に必要な **コンセプト設計書**・**実装用システムプロンプト**・**配信テーマリスト** の3点セットを、LLMを用いて合成的に生成したものです。
多様なジャンル・性格・ビジュアルの組み合わせから、即座に実運用可能な品質のAItuberキャラクターデータを提供します。
生成にはSDG-LOOMという合成データ生成パイプラインとMoonshot-AIのKimi-K2.5を用いました。([sdg-loom](https://github.com/foxn2000/sdg_loom))
## データの説明
| 項目 | 内容 |
|------|------|
| **件数** | 195件 |
| **形式** | JSONL(1行1JSON) |
| **言語** | 日本語 |
| **生成日** | 2026年3月 |
| **ライセンス** | odc-by ( Open Data Commons Attribution License ) |
各レコードは、6つの方向性パラメータ(ジャンル・性格・年齢・性別表現・ビジュアルモチーフ・話し方)の組み合わせをシードとして、LLMが独自にキャラクターを設計・出力したものです。シードの組み合わせは意図的に多様性を持たせており、以下のようなバリエーションを含みます。
- **ジャンル方向性**: 雑談・癒し系、学術・教育系、技術・プログラミング系、オカルト・ホラー系、料理・グルメ系、音楽・歌系 など約25カテゴリ
- **性格方向性**: 天然ボケ、ツンデレ、知的クール、中二病、ダウナー系、お姉さん系 など約20タイプ
- **年齢設定**: 高校生 / 大学生 / 社会人数年目 / アラサー / 年齢不詳 など
- **性別表現**: 女性的 / 男性的 / 中性的 / ボクっ娘
- **ビジュアルモチーフ**: ゴシック・ダーク系、動物モチーフ、サイバーパンク、和風・着物 など約15種
- **話し方**: ギャル語、関西弁風、お嬢様言葉、古風・武士口調、東北弁風 など約10スタイル
## 使用モデル
| 項目 | 詳細 |
|------|------|
| **モデル** | [Kimi K2.5](https://platform.moonshot.cn/)(Moonshot AI) |
| **APIモデル名** | `moonshotai/kimi-k2.5` |
| **Temperature** | 0.95 |
| **Max Tokens** | 16,000 |
## データ構造
### 出力スキーマ(JSONL)
各行は以下のフィールドを持つJSONオブジェクトです。
| フィールド | 型 | 説明 |
|---|---|---|
| `concept` | `string` | **(A) コンセプト設計書** — Markdown形式のキャラクター設計書全文。基本プロフィール、詳細ペルソナ(性格・口癖・感情表現等)、バックストーリー、ビジュアル要件を含む。 |
| `system_prompt` | `string` | **(B) 実装用システムプロンプト** — LLMにそのまま入力可能なシステムプロンプト。キャラクター定義、応答スタイル、会話例(良い例・悪い例)、ガードレールを含む。 |
| `thema` | `string` (JSON配列) | **(C) 配信テーマリスト10選** — `[{"title": "...", "content": "..."}]` 形式。雑談のみで完結し、キャラの個性が反映されたテーマ。 |
| `is_valid` | `string` | 品質チェック結果。`"true"` または `"false"`。 |
| `quality_notes` | `string` | 品質チェックの詳細メモ。正常時は `"OK"` または `"OK (retry)"`。 |
### 出力例
```json
{
"concept": "# キャラクター設計書:星宮ルナ\n\n## 基本プロフィール\n| 項目 | 内容 |\n|---|---|\n| 名前 | 星宮ルナ(ホシミヤ ルナ) |\n| 愛称 | ルナちー |\n...",
"system_prompt": "## キャラクター定義\nあなたは「星宮ルナ」です。...\n\n## 応答スタイル\n- 1発言の文字数目安:100〜200字、上限300字\n...",
"thema": "[{\"title\": \"ルナちーの星空妄想カフェ\", \"content\": \"今夜見える星座をきっかけに...\"}, ...]",
"is_valid": "true",
"quality_notes": "OK"
}
```
### 入力シード構造(参考)
生成時に使用したシードデータの構造です。
| フィールド | 例 |
|---|---|
| `index` | `1` |
| `genre_hint` | `"学術・教育系(雑学・豆知識トーク)"` |
| `personality_hint` | `"天然ボケ・独特のズレた感性"` |
| `age_setting` | `"高校生(16〜18歳)設定"` |
| `gender_presentation` | `"女性的"` |
| `visual_motif` | `"アイドル・ステージ衣装系"` |
| `speech_style` | `"ギャル語"` |
## 注意事項
- 本データセットはLLMによる合成データです。生成されたキャラクター名やエピソードはすべてフィクションです。
- `thema` フィールドはJSON文字列としてエンコードされています。利用時は `json.loads()` 等でパースしてください。
- `is_valid` が `"false"` のレコードは品質基準を満たしていない可能性があるため、利用時にフィルタリングを推奨します。
## 生成コマンド(再現用)
```bash
sdg run \
--yaml flows/yaml/aituber_persona.yaml \
--input flows/data/aituber_persona_seeds.jsonl \
--output output/aituber_personas.jsonl \
--save-intermediate \
--max-concurrent 30
```
Built by kimi
提供机构:
DataPilot



