five

DataPilot/AItuber-Personas-Japan

收藏
Hugging Face2026-03-16 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DataPilot/AItuber-Personas-Japan
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: odc-by language: - ja tags: - synthetic pretty_name: sdg-nexus size_categories: - n<1K --- # AItuber Persona Dataset ## 概要 本データセットは、AItuber(AI VTuber)のペルソナ設計に必要な **コンセプト設計書**・**実装用システムプロンプト**・**配信テーマリスト** の3点セットを、LLMを用いて合成的に生成したものです。 多様なジャンル・性格・ビジュアルの組み合わせから、即座に実運用可能な品質のAItuberキャラクターデータを提供します。 生成にはSDG-LOOMという合成データ生成パイプラインとMoonshot-AIのKimi-K2.5を用いました。([sdg-loom](https://github.com/foxn2000/sdg_loom)) ## データの説明 | 項目 | 内容 | |------|------| | **件数** | 195件 | | **形式** | JSONL(1行1JSON) | | **言語** | 日本語 | | **生成日** | 2026年3月 | | **ライセンス** | odc-by ( Open Data Commons Attribution License ) | 各レコードは、6つの方向性パラメータ(ジャンル・性格・年齢・性別表現・ビジュアルモチーフ・話し方)の組み合わせをシードとして、LLMが独自にキャラクターを設計・出力したものです。シードの組み合わせは意図的に多様性を持たせており、以下のようなバリエーションを含みます。 - **ジャンル方向性**: 雑談・癒し系、学術・教育系、技術・プログラミング系、オカルト・ホラー系、料理・グルメ系、音楽・歌系 など約25カテゴリ - **性格方向性**: 天然ボケ、ツンデレ、知的クール、中二病、ダウナー系、お姉さん系 など約20タイプ - **年齢設定**: 高校生 / 大学生 / 社会人数年目 / アラサー / 年齢不詳 など - **性別表現**: 女性的 / 男性的 / 中性的 / ボクっ娘 - **ビジュアルモチーフ**: ゴシック・ダーク系、動物モチーフ、サイバーパンク、和風・着物 など約15種 - **話し方**: ギャル語、関西弁風、お嬢様言葉、古風・武士口調、東北弁風 など約10スタイル ## 使用モデル | 項目 | 詳細 | |------|------| | **モデル** | [Kimi K2.5](https://platform.moonshot.cn/)(Moonshot AI) | | **APIモデル名** | `moonshotai/kimi-k2.5` | | **Temperature** | 0.95 | | **Max Tokens** | 16,000 | ## データ構造 ### 出力スキーマ(JSONL) 各行は以下のフィールドを持つJSONオブジェクトです。 | フィールド | 型 | 説明 | |---|---|---| | `concept` | `string` | **(A) コンセプト設計書** — Markdown形式のキャラクター設計書全文。基本プロフィール、詳細ペルソナ(性格・口癖・感情表現等)、バックストーリー、ビジュアル要件を含む。 | | `system_prompt` | `string` | **(B) 実装用システムプロンプト** — LLMにそのまま入力可能なシステムプロンプト。キャラクター定義、応答スタイル、会話例(良い例・悪い例)、ガードレールを含む。 | | `thema` | `string` (JSON配列) | **(C) 配信テーマリスト10選** — `[{"title": "...", "content": "..."}]` 形式。雑談のみで完結し、キャラの個性が反映されたテーマ。 | | `is_valid` | `string` | 品質チェック結果。`"true"` または `"false"`。 | | `quality_notes` | `string` | 品質チェックの詳細メモ。正常時は `"OK"` または `"OK (retry)"`。 | ### 出力例 ```json { "concept": "# キャラクター設計書:星宮ルナ\n\n## 基本プロフィール\n| 項目 | 内容 |\n|---|---|\n| 名前 | 星宮ルナ(ホシミヤ ルナ) |\n| 愛称 | ルナちー |\n...", "system_prompt": "## キャラクター定義\nあなたは「星宮ルナ」です。...\n\n## 応答スタイル\n- 1発言の文字数目安:100〜200字、上限300字\n...", "thema": "[{\"title\": \"ルナちーの星空妄想カフェ\", \"content\": \"今夜見える星座をきっかけに...\"}, ...]", "is_valid": "true", "quality_notes": "OK" } ``` ### 入力シード構造(参考) 生成時に使用したシードデータの構造です。 | フィールド | 例 | |---|---| | `index` | `1` | | `genre_hint` | `"学術・教育系(雑学・豆知識トーク)"` | | `personality_hint` | `"天然ボケ・独特のズレた感性"` | | `age_setting` | `"高校生(16〜18歳)設定"` | | `gender_presentation` | `"女性的"` | | `visual_motif` | `"アイドル・ステージ衣装系"` | | `speech_style` | `"ギャル語"` | ## 注意事項 - 本データセットはLLMによる合成データです。生成されたキャラクター名やエピソードはすべてフィクションです。 - `thema` フィールドはJSON文字列としてエンコードされています。利用時は `json.loads()` 等でパースしてください。 - `is_valid` が `"false"` のレコードは品質基準を満たしていない可能性があるため、利用時にフィルタリングを推奨します。 ## 生成コマンド(再現用) ```bash sdg run \ --yaml flows/yaml/aituber_persona.yaml \ --input flows/data/aituber_persona_seeds.jsonl \ --output output/aituber_personas.jsonl \ --save-intermediate \ --max-concurrent 30 ``` Built by kimi
提供机构:
DataPilot
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作