five

DataPilot/Knowledge-QA-SingleTurn-Dataset

收藏
Hugging Face2026-03-21 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/DataPilot/Knowledge-QA-SingleTurn-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: odc-by language: - ja tags: - synthetic pretty_name: sdg-nexus size_categories: - 1K<n<10K --- # Knowledge QA Single-turn Dataset(知識質問データセット・シングルターン) ## 概要 本データセットは、[Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k](https://huggingface.co/datasets/Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k) から質問を抽出し、DeepSeek V3.2で整形、Kimi K2.5で回答を生成した **シングルターンの知識質問応答データセット** です。 Reasoning有効化により思考過程も最終データに含まれ、質問の難易度に応じてReasoning effortが動的に切り替わります。 生成にはSDG-LOOMという合成データ生成パイプラインを用いました。([sdg-loom](https://github.com/foxn2000/sdg_loom)) ## データの説明 | 項目 | 内容 | |------|------| | **件数** | 約7,000件 | | **形式** | JSONL(1行1JSON) | | **言語** | 日本語 | | **ターン数** | 1ターン(質問1 + 回答1) | | **ソースデータセット** | [Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k](https://huggingface.co/datasets/Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k) | | **生成日** | 2026年3月 | | **ライセンス** | odc-by ( Open Data Commons Attribution License ) | ### 特徴 - **質問整形**: DeepSeek V3.2が元の質問を校正し、口語的な自然さを維持しつつ質問として成立するよう整形 - **動的Reasoning Effort**: 質問の難易度に応じて `low` / `medium` / `high` を自動判定 - **カナリアSPシステムプロンプト**: 「洞察の質」を重視し、質問のトーンに文体を合わせるAIアシスタント「カナリア」の人格で回答 ## 使用モデル | 項目 | 詳細 | |------|------| | **回答生成モデル** | Kimi K2.5(`moonshotai/kimi-k2.5`) | | **質問整形モデル** | DeepSeek V3.2(`deepseek/deepseek-v3.2`) | | **Reasoning** | ON(effort: low / medium / high を動的判定) | | **Temperature** | 0.7 | | **Max Tokens** | 16,000 | ## データ構造 ### 出力スキーマ(JSONL) 各行は `_row_index` と `conversations`(JSON文字列)を持ちます。 | フィールド | 型 | 説明 | |---|---|---| | `messages` | `array` | OpenAI messages形式の会話配列。system + 1ターン分のuser/assistant。 | | `reasoning` | `string` | 質問に対して適用されたReasoning effort(`"low"` / `"medium"` / `"high"`)。 | | `generator` | `string` | 回答生成モデル名(`"moonshotai/kimi-k2.5"`)。 | | `category` | `string` | データカテゴリ(`"knowledge_qa"`)。 | | `version` | `string` | データバージョン(`"v1.0"`)。 | | `other_data` | `object` | ソースデータセット名、元の質問テキスト、質問整形モデル名。 | ### messages配列の構造 | role | 内容 | |------|------| | `system` | カナリアSPシステムプロンプト(回答方針・論理と推論・文体・構造化ルール) | | `user` | 整形済みの質問 | | `assistant` | 回答。`reasoning` フィールドに思考過程を含む | ### 出力例 ```json { "messages": [ {"role": "system", "content": "あなたはAIアシスタントのカナリアです。\n\n## 回答の方針\n..."}, {"role": "user", "content": "水星、金星、地球、火星の中で一番小さい惑星は?"}, {"role": "assistant", "content": "水星だよ。直径は約4,880kmで...", "reasoning": "4つの地球型惑星の大きさを比較すると..."} ], "reasoning": "low", "generator": "moonshotai/kimi-k2.5", "category": "knowledge_qa", "version": "v1.0", "other_data": { "source_dataset": "Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k", "original_question": "水星、金星、地球、火星の中で一番小さい惑星はどれですか?", "num_turns": 1, "question_formatter": "deepseek/deepseek-v3.2" } } ``` ## 注意事項 - 本データセットはLLMによる合成データです。回答の正確性は保証されません。 - `reasoning` フィールドの値は質問ごとに異なります(low / medium / high)。用途に応じてフィルタリングが可能です。 - ソースデータセットのライセンスも併せてご確認ください。 built by kimi
提供机构:
DataPilot
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作