five

DataPilot/Knowledge-QA-MultiTurn-Dataset

收藏
Hugging Face2026-03-21 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DataPilot/Knowledge-QA-MultiTurn-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: odc-by language: - ja tags: - synthetic pretty_name: sdg-nexus size_categories: - 1K<n<10K --- # Knowledge QA Multi-turn Dataset(知識質問データセット・マルチターン) ## 概要 本データセットは、[Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k](https://huggingface.co/datasets/Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k) から質問を抽出し、DeepSeek V3.2で整形・フォローアップ質問を生成、Kimi K2.5で回答を生成した **3ターンのマルチターン知識質問応答データセット** です。 Reasoning有効化により思考過程も最終データに含まれ、質問の難易度に応じてReasoning effortが動的に切り替わります。 生成にはSDG-LOOMという合成データ生成パイプラインを用いました。([sdg-loom](https://github.com/foxn2000/sdg_loom)) ## データの説明 | 項目 | 内容 | |------|------| | **件数** | 約3,000件 | | **形式** | JSONL(1行1JSON) | | **言語** | 日本語 | | **ターン数** | 3ターン(質問3 + 回答3) | | **ソースデータセット** | [Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k](https://huggingface.co/datasets/Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k) | | **生成日** | 2026年3月 | | **ライセンス** | odc-by ( Open Data Commons Attribution License ) | ### 特徴 - **質問整形**: DeepSeek V3.2が元の質問を校正し、口語的な自然さを維持しつつ質問として成立するよう整形 - **フォローアップ質問生成**: DeepSeek V3.2が前のターンの回答を踏まえてフォローアップ質問を自動生成 - **動的Reasoning Effort**: 質問の難易度に応じて `low` / `medium` / `high` を自動判定(3ターン共通) - **カナリアSPシステムプロンプト**: 「洞察の質」を重視し、質問のトーンに文体を合わせるAIアシスタント「カナリア」の人格で回答 ## 使用モデル | 項目 | 詳細 | |------|------| | **回答生成モデル** | Kimi K2.5(`moonshotai/kimi-k2.5`) | | **質問整形・フォローアップ生成モデル** | DeepSeek V3.2(`deepseek/deepseek-v3.2`) | | **Reasoning** | ON(effort: low / medium / high を動的判定) | | **Temperature(回答)** | 0.7 | | **Temperature(質問整形)** | 0.7 | | **Max Tokens** | 16,000 | ## データ構造 ### 出力スキーマ(JSONL) 各行は `_row_index` と `conversations`(JSON文字列)を持ちます。 | フィールド | 型 | 説明 | |---|---|---| | `messages` | `array` | OpenAI messages形式の会話配列。system + 3ターン分のuser/assistant。 | | `reasoning` | `string` | 質問に対して適用されたReasoning effort(`"low"` / `"medium"` / `"high"`)。 | | `generator` | `string` | 回答生成モデル名(`"moonshotai/kimi-k2.5"`)。 | | `category` | `string` | データカテゴリ(`"knowledge_qa"`)。 | | `version` | `string` | データバージョン(`"v1.0"`)。 | | `other_data` | `object` | ソースデータセット名、元の質問テキスト、ターン数、質問整形モデル名。 | ### messages配列の構造 | role | 内容 | |------|------| | `system` | カナリアSPシステムプロンプト(回答方針・論理と推論・文体・構造化ルール) | | `user` | Turn 1: 整形済みの質問 / Turn 2-3: フォローアップ質問 | | `assistant` | 回答。`reasoning` フィールドに思考過程を含む | ### 出力例 ```json { "messages": [ {"role": "system", "content": "あなたはAIアシスタントのカナリアです。\n\n## 回答の方針\n..."}, {"role": "user", "content": "タイタニック号の沈没事故の概要を教えてください。"}, {"role": "assistant", "content": "タイタニック号は1912年4月14日の深夜...", "reasoning": "タイタニック号について正確な情報を..."}, {"role": "user", "content": "生存者の割合はどのくらいだったの?"}, {"role": "assistant", "content": "乗船者約2,200人のうち生存者は約710人で...", "reasoning": "統計データに基づいて..."}, {"role": "user", "content": "救助体制に問題があったの?"}, {"role": "assistant", "content": "いくつかの構造的な問題がありました。まず...", "reasoning": "救命ボートの数、氷山警告の無視..."} ], "reasoning": "medium", "generator": "moonshotai/kimi-k2.5", "category": "knowledge_qa", "version": "v1.0", "other_data": { "source_dataset": "Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k", "original_question": "タイタニック号の沈没事故の概要を教えてください。", "num_turns": 3, "question_formatter": "deepseek/deepseek-v3.2" } } ``` ## 注意事項 - 本データセットはLLMによる合成データです。回答の正確性は保証されません。 - `reasoning` フィールドの値は質問ごとに異なります(low / medium / high)。用途に応じてフィルタリングが可能です。 - フォローアップ質問はDeepSeek V3.2が前のターンの回答を踏まえて自動生成しています。 - ソースデータセットのライセンスも併せてご確認ください。 built by kimi
提供机构:
DataPilot
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作