five

azuki-digital/ft-llm-2026-synthetic-ja-math-qwen-30b-v2

收藏
Hugging Face2026-02-15 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/azuki-digital/ft-llm-2026-synthetic-ja-math-qwen-30b-v2
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: apache-2.0 task_categories: - text-generation tags: - math - synthetic - chain-of-thought - majority-vote size_categories: - 1M<n<10M configs: - config_name: original data_files: - split: train path: original/train-*.parquet - config_name: cot_4 data_files: - split: train path: cot_4/train-*.parquet - config_name: cot_8 data_files: - split: train path: cot_8/train-*.parquet - config_name: cot_12 data_files: - split: train path: cot_12/train-*.parquet - config_name: cot_16 data_files: - split: train path: cot_16/train-*.parquet - config_name: cot_20 data_files: - split: train path: cot_20/train-*.parquet --- # ft-llm-2026-synthetic-ja-math-qwen-30b-v2 日本語の数学問題に対する合成データセットです。Qwen3-30B-A3B-Instruct-2507 を用いて生成された Chain-of-Thought (CoT) 推論を含みます。多数決投票 (Majority Vote) による正解フィルタリング済みデータです。 ## サブセット | サブセット | 説明 | 件数 | |-----------|------|------| | `original` | 元のシード問題と1回のCoT生成 | 52,839 | | `cot_4` | 各問題に対して最大4回のCoT生成 | 211,356 | | `cot_8` | 各問題に対して最大8回のCoT生成 | 422,712 | | `cot_12` | 各問題に対して最大12回のCoT生成 | 634,068 | | `cot_16` | 各問題に対して最大16回のCoT生成 | 845,424 | | `cot_20` | 各問題に対して最大20回のCoT生成 | 1,035,719 | ## カラム | カラム名 | 説明 | |---------|------| | `category` | 数学のカテゴリ (例: 中1, IA, IIB, IIIC) | | `unit` | 単元名 (例: 一次方程式, 2次関数) | | `difficulty` | 難易度 (easy, medium, hard) | | `problem` | 数学の問題文 | | `solution` | 正解 | | `chain_of_thought` | 思考過程を含む詳細な解答 | | `models` | 生成に使用したモデル名 | ## データ統計 (`original` サブセット) 合計: **52,839** 件 ### Difficulty別件数 | Difficulty | 件数 | |-----------|------| | easy | 16,376 | | hard | 20,203 | | medium | 16,260 | ### Category別件数 | Category | 件数 | |----------|------| | 中1 | 10,137 | | 中2 | 8,006 | | 中3 | 8,896 | | IA | 7,454 | | IIB | 11,563 | | IIIC | 6,783 | ### Category × Unit 詳細 **中1** | Unit | 件数 | |------|------| | 一次方程式 | 2,749 | | 文字式 | 2,067 | | 正負の数 | 2,905 | | 比例反比例 | 2,416 | **中2** | Unit | 件数 | |------|------| | 一次関数 | 2,820 | | 文字式 | 1,918 | | 確率 | 1,088 | | 連立方程式 | 2,180 | **中3** | Unit | 件数 | |------|------| | 二次方程式 | 2,062 | | 二次関数 | 1,408 | | 展開と因数分解 | 2,827 | | 平方根 | 2,599 | **IA** | Unit | 件数 | |------|------| | 2次関数 | 1,174 | | 場合の数と確率 | 2,393 | | 数と式 | 1,922 | | 整数の性質(数学と人間活動) | 1,965 | **IIB** | Unit | 件数 | |------|------| | いろいろな式 | 1,407 | | 三角関数 | 1,920 | | 微分法・積分法 | 1,462 | | 指数・対数 | 1,649 | | 数列 | 2,550 | | 統計的な推測 | 2,575 | **IIIC** | Unit | 件数 | |------|------| | ベクトル | 1,160 | | 平面上の曲線と複素数平面 | 1,319 | | 微分 | 1,809 | | 極限 | 1,166 | | 積分 | 1,329 |

language: - 日语 license: apache-2.0 task_categories: - 文本生成 tags: - 数学 - 合成数据 - 思维链(Chain-of-Thought) - 多数投票(Majority Vote) size_categories: - 100万<样本量<1000万 configs: - config_name: original data_files: - split: train path: original/train-*.parquet - config_name: cot_4 data_files: - split: train path: cot_4/train-*.parquet - config_name: cot_8 data_files: - split: train path: cot_8/train-*.parquet - config_name: cot_12 data_files: - split: train path: cot_12/train-*.parquet - config_name: cot_16 data_files: - split: train path: cot_16/train-*.parquet - config_name: cot_20 data_files: - split: train path: cot_20/train-*.parquet # ft-llm-2026-synthetic-ja-math-qwen-30b-v2 本数据集为面向日语数学问题的合成数据集,包含使用Qwen3-30B-A3B-Instruct-2507生成的思维链(Chain-of-Thought, CoT)推理内容,且已通过多数投票(Majority Vote)完成正确答案过滤。 ## 子集 | 子集 | 说明 | 样本量 | |-----------|------|------| | `original` | 原始种子问题与单次CoT生成 | 52,839 | | `cot_4` | 针对每个问题最多生成4次CoT | 211,356 | | `cot_8` | 针对每个问题最多生成8次CoT | 422,712 | | `cot_12` | 针对每个问题最多生成12次CoT | 634,068 | | `cot_16` | 针对每个问题最多生成16次CoT | 845,424 | | `cot_20` | 针对每个问题最多生成20次CoT | 1,035,719 | ## 字段 | 字段名 | 说明 | |---------|------| | `category` | 数学学科分类(示例:初中一年级、IA、IIB、IIIC) | | `unit` | 知识点单元(示例:一元一次方程、二次函数) | | `difficulty` | 难度等级(easy、medium、hard) | | `problem` | 数学问题题干 | | `solution` | 正确答案 | | `chain_of_thought` | 包含思考过程的详细解答 | | `models` | 生成所用模型名称 | ## `original` 子集数据统计 总计:**52,839** 条样本 ### 按难度等级分布的样本量 | 难度等级 | 样本量 | |-----------|------| | 简易(easy) | 16,376 | | 困难(hard) | 20,203 | | 中等(medium) | 16,260 | ### 按学科分类分布的样本量 | 学科分类 | 样本量 | |----------|------| | 初中一年级(中1) | 10,137 | | 初中二年级(中2) | 8,006 | | 初中三年级(中3) | 8,896 | | IA | 7,454 | | IIB | 11,563 | | IIIC | 6,783 | ### 学科分类×知识点单元详情 **初中一年级(中1)** | 知识点单元 | 样本量 | |------|------| | 一元一次方程 | 2,749 | | 代数式 | 2,067 | | 正负数 | 2,905 | | 比例与反比例 | 2,416 | **初中二年级(中2)** | 知识点单元 | 样本量 | |------|------| | 一次函数 | 2,820 | | 代数式 | 1,918 | | 概率 | 1,088 | | 联立方程组 | 2,180 | **初中三年级(中3)** | 知识点单元 | 样本量 | |------|------| | 一元二次方程 | 2,062 | | 二次函数 | 1,408 | | 展开与因式分解 | 2,827 | | 平方根 | 2,599 | **IA** | 知识点单元 | 样本量 | |------|------| | 二次函数 | 1,174 | | 排列组合与概率 | 2,393 | | 数与式 | 1,922 | | 整数的性质(数学与人类活动) | 1,965 | **IIB** | 知识点单元 | 样本量 | |------|------| | 各类代数式 | 1,407 | | 三角函数 | 1,920 | | 微分法与积分法 | 1,462 | | 指数与对数 | 1,649 | | 数列 | 2,550 | | 统计推断 | 2,575 | **IIIC** | 知识点单元 | 样本量 | |------|------| | 向量 | 1,160 | | 平面曲线与复平面 | 1,319 | | 微分 | 1,809 | | 极限 | 1,166 | | 积分 | 1,329 |
提供机构:
azuki-digital
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作