five

DataPilot/AItuber-Realworld-Data-beta1

收藏
Hugging Face2026-03-14 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DataPilot/AItuber-Realworld-Data-beta1
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: odc-by language: - ja tags: - synthetic pretty_name: sdg-nexus size_categories: - 1K<n<10K --- # AItuber Realworld Chat Dataset ## 概要 本データセットは、AItuber(AI VTuber)の **配信チャット会話データ** を合成的に生成したものです。 AItuberペルソナデータと [nvidia/Nemotron-Personas-Japan](https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan) のユーザーペルソナを入力に、複数の視聴者がコメントし、AItuberが応答する4ターンのリアルな配信チャットデータを生成しています。 生成にはSDG-Nexusという合成データ生成パイプラインを用いました。([sdg-nexus](https://github.com/foxn2000/sdg_nexus)) ## データの説明 | 項目 | 内容 | |------|------| | **件数** | 1,946件 | | **形式** | JSONL(1行1JSON) | | **言語** | 日本語 | | **生成日** | 2026年3月 | | **ライセンス** | odc-by ( Open Data Commons Attribution License ) | 各レコードは、AItuberペルソナのシステムプロンプトと配信テーマを基に、Nemotronペルソナから生成された複数の視聴者が交互にコメントし、AItuberが応答する4ターンの配信チャット会話です。最終ターンには校正チェックが適用されています。 ## マルチエージェント構成 | エージェント | モデル | 役割 | |---|---|---| | **ユーザー/コメント生成** | [DeepSeek V3.2](https://openrouter.ai/) | 視聴者ユーザーデータ生成・コメント生成(Reasoning OFF) | | **AItuber応答生成** | [Kimi K2.5](https://platform.moonshot.cn/)(Moonshot AI) | AItuberとしての回答生成(Reasoning ON / effort=medium) | | **校正** | [DeepSeek V3.2](https://openrouter.ai/) | AItuber発話の品質校正(低温度) | ## 使用モデル | 項目 | 詳細 | |------|------| | **AItuber応答モデル** | Kimi K2.5(`moonshotai/kimi-k2.5`) | | **コメント生成モデル** | DeepSeek V3.2(`deepseek/deepseek-v3.2`) | | **校正モデル** | DeepSeek V3.2(`deepseek/deepseek-v3.2`) | | **Temperature(応答)** | 0.85 | | **Temperature(コメント)** | 0.8 | | **Temperature(校正)** | 0.2 | ## データ構造 ### 出力スキーマ(JSONL) 各行は `_row_index` と `conversations`(JSON文字列)を持ちます。 | フィールド | 型 | 説明 | |---|---|---| | `messages` | `array` | OpenAI messages形式の会話配列。system(ペルソナ)+ 4ターン分のuser/assistant。 | | `reasoning` | `string` | Reasoning effort レベル(`"medium"`)。 | | `generator` | `string` | 応答生成モデル名(`"moonshotai/kimi-k2.5"`)。 | | `category` | `string` | データカテゴリ(`"aituber_realworld"`)。 | | `version` | `string` | データバージョン(`"v1.0"`)。 | | `other_data` | `object` | 配信テーマ・ユーザー情報・ターンスケジュール・校正フラグ等の付属情報。 | ### messages配列の構造 | role | 内容 | |------|------| | `system` | AItuberペルソナのシステムプロンプト | | `user` | `"ユーザー名: コメント内容"` 形式の視聴者コメント | | `assistant` | AItuberの応答。`reasoning` フィールドに思考過程を含む場合あり | ### 出力例 ```json { "messages": [ {"role": "system", "content": "## キャラクター定義\nあなたは「星宮ルナ」です。..."}, {"role": "user", "content": "ゲスト太郎: こんばんは〜!"}, {"role": "assistant", "content": "あ、ゲスト太郎さんいらっしゃい!...", "reasoning": "視聴者が挨拶してきたので..."}, {"role": "user", "content": "花子: 今日のテーマ何?"}, {"role": "assistant", "content": "今日はね〜、...", "reasoning": "配信テーマに沿って..."}, {"role": "user", "content": "ゲスト太郎: それ面白そう!"}, {"role": "assistant", "content": "でしょ?...", "reasoning": "..."}, {"role": "user", "content": "花子: もっと教えて!"}, {"role": "assistant", "content": "いいよ〜!...", "reasoning": "..."} ], "reasoning": "medium", "generator": "moonshotai/kimi-k2.5", "category": "aituber_realworld", "version": "v1.0", "other_data": { "stream_title": "星空妄想カフェ", "stream_content": "今夜見える星座をきっかけに...", "num_turns": 4, "users": [{"name": "ゲスト太郎", "about_me_light": "..."}, ...], "turn_schedule": [...], "was_proofread": true, "comment_generator": "deepseek/deepseek-v3.2", "proofreader": "deepseek/deepseek-v3.2" } } ``` ## 入力データ AItuberペルソナ生成パイプラインの出力(`aituber_personas.jsonl`)を入力として使用しています。各ペルソナの配信テーマごとに1レコードが生成されます。 ## 注意事項 - 本データセットはLLMによる合成データです。生成されたキャラクター名やエピソードはすべてフィクションです。 - `conversations` フィールドはJSON文字列としてエンコードされています。利用時は `json.loads()` でパースしてください。 - `assistant` メッセージの `reasoning` フィールドには、AItuberとしての応答を生成する際の思考過程が含まれます。
提供机构:
DataPilot
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作