azuki-digital/ft-llm-2026-synthetic-ja-math-qwen-30b-v2
收藏Hugging Face2026-02-15 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/azuki-digital/ft-llm-2026-synthetic-ja-math-qwen-30b-v2
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
license: apache-2.0
task_categories:
- text-generation
tags:
- math
- synthetic
- chain-of-thought
- majority-vote
size_categories:
- 1M<n<10M
configs:
- config_name: original
data_files:
- split: train
path: original/train-*.parquet
- config_name: cot_4
data_files:
- split: train
path: cot_4/train-*.parquet
- config_name: cot_8
data_files:
- split: train
path: cot_8/train-*.parquet
- config_name: cot_12
data_files:
- split: train
path: cot_12/train-*.parquet
- config_name: cot_16
data_files:
- split: train
path: cot_16/train-*.parquet
- config_name: cot_20
data_files:
- split: train
path: cot_20/train-*.parquet
---
# ft-llm-2026-synthetic-ja-math-qwen-30b-v2
日本語の数学問題に対する合成データセットです。Qwen3-30B-A3B-Instruct-2507 を用いて生成された Chain-of-Thought (CoT) 推論を含みます。多数決投票 (Majority Vote) による正解フィルタリング済みデータです。
## サブセット
| サブセット | 説明 | 件数 |
|-----------|------|------|
| `original` | 元のシード問題と1回のCoT生成 | 52,839 |
| `cot_4` | 各問題に対して最大4回のCoT生成 | 211,356 |
| `cot_8` | 各問題に対して最大8回のCoT生成 | 422,712 |
| `cot_12` | 各問題に対して最大12回のCoT生成 | 634,068 |
| `cot_16` | 各問題に対して最大16回のCoT生成 | 845,424 |
| `cot_20` | 各問題に対して最大20回のCoT生成 | 1,035,719 |
## カラム
| カラム名 | 説明 |
|---------|------|
| `category` | 数学のカテゴリ (例: 中1, IA, IIB, IIIC) |
| `unit` | 単元名 (例: 一次方程式, 2次関数) |
| `difficulty` | 難易度 (easy, medium, hard) |
| `problem` | 数学の問題文 |
| `solution` | 正解 |
| `chain_of_thought` | 思考過程を含む詳細な解答 |
| `models` | 生成に使用したモデル名 |
## データ統計 (`original` サブセット)
合計: **52,839** 件
### Difficulty別件数
| Difficulty | 件数 |
|-----------|------|
| easy | 16,376 |
| hard | 20,203 |
| medium | 16,260 |
### Category別件数
| Category | 件数 |
|----------|------|
| 中1 | 10,137 |
| 中2 | 8,006 |
| 中3 | 8,896 |
| IA | 7,454 |
| IIB | 11,563 |
| IIIC | 6,783 |
### Category × Unit 詳細
**中1**
| Unit | 件数 |
|------|------|
| 一次方程式 | 2,749 |
| 文字式 | 2,067 |
| 正負の数 | 2,905 |
| 比例反比例 | 2,416 |
**中2**
| Unit | 件数 |
|------|------|
| 一次関数 | 2,820 |
| 文字式 | 1,918 |
| 確率 | 1,088 |
| 連立方程式 | 2,180 |
**中3**
| Unit | 件数 |
|------|------|
| 二次方程式 | 2,062 |
| 二次関数 | 1,408 |
| 展開と因数分解 | 2,827 |
| 平方根 | 2,599 |
**IA**
| Unit | 件数 |
|------|------|
| 2次関数 | 1,174 |
| 場合の数と確率 | 2,393 |
| 数と式 | 1,922 |
| 整数の性質(数学と人間活動) | 1,965 |
**IIB**
| Unit | 件数 |
|------|------|
| いろいろな式 | 1,407 |
| 三角関数 | 1,920 |
| 微分法・積分法 | 1,462 |
| 指数・対数 | 1,649 |
| 数列 | 2,550 |
| 統計的な推測 | 2,575 |
**IIIC**
| Unit | 件数 |
|------|------|
| ベクトル | 1,160 |
| 平面上の曲線と複素数平面 | 1,319 |
| 微分 | 1,809 |
| 極限 | 1,166 |
| 積分 | 1,329 |
language:
- 日语
license: apache-2.0
task_categories:
- 文本生成
tags:
- 数学
- 合成数据
- 思维链(Chain-of-Thought)
- 多数投票(Majority Vote)
size_categories:
- 100万<样本量<1000万
configs:
- config_name: original
data_files:
- split: train
path: original/train-*.parquet
- config_name: cot_4
data_files:
- split: train
path: cot_4/train-*.parquet
- config_name: cot_8
data_files:
- split: train
path: cot_8/train-*.parquet
- config_name: cot_12
data_files:
- split: train
path: cot_12/train-*.parquet
- config_name: cot_16
data_files:
- split: train
path: cot_16/train-*.parquet
- config_name: cot_20
data_files:
- split: train
path: cot_20/train-*.parquet
# ft-llm-2026-synthetic-ja-math-qwen-30b-v2
本数据集为面向日语数学问题的合成数据集,包含使用Qwen3-30B-A3B-Instruct-2507生成的思维链(Chain-of-Thought, CoT)推理内容,且已通过多数投票(Majority Vote)完成正确答案过滤。
## 子集
| 子集 | 说明 | 样本量 |
|-----------|------|------|
| `original` | 原始种子问题与单次CoT生成 | 52,839 |
| `cot_4` | 针对每个问题最多生成4次CoT | 211,356 |
| `cot_8` | 针对每个问题最多生成8次CoT | 422,712 |
| `cot_12` | 针对每个问题最多生成12次CoT | 634,068 |
| `cot_16` | 针对每个问题最多生成16次CoT | 845,424 |
| `cot_20` | 针对每个问题最多生成20次CoT | 1,035,719 |
## 字段
| 字段名 | 说明 |
|---------|------|
| `category` | 数学学科分类(示例:初中一年级、IA、IIB、IIIC) |
| `unit` | 知识点单元(示例:一元一次方程、二次函数) |
| `difficulty` | 难度等级(easy、medium、hard) |
| `problem` | 数学问题题干 |
| `solution` | 正确答案 |
| `chain_of_thought` | 包含思考过程的详细解答 |
| `models` | 生成所用模型名称 |
## `original` 子集数据统计
总计:**52,839** 条样本
### 按难度等级分布的样本量
| 难度等级 | 样本量 |
|-----------|------|
| 简易(easy) | 16,376 |
| 困难(hard) | 20,203 |
| 中等(medium) | 16,260 |
### 按学科分类分布的样本量
| 学科分类 | 样本量 |
|----------|------|
| 初中一年级(中1) | 10,137 |
| 初中二年级(中2) | 8,006 |
| 初中三年级(中3) | 8,896 |
| IA | 7,454 |
| IIB | 11,563 |
| IIIC | 6,783 |
### 学科分类×知识点单元详情
**初中一年级(中1)**
| 知识点单元 | 样本量 |
|------|------|
| 一元一次方程 | 2,749 |
| 代数式 | 2,067 |
| 正负数 | 2,905 |
| 比例与反比例 | 2,416 |
**初中二年级(中2)**
| 知识点单元 | 样本量 |
|------|------|
| 一次函数 | 2,820 |
| 代数式 | 1,918 |
| 概率 | 1,088 |
| 联立方程组 | 2,180 |
**初中三年级(中3)**
| 知识点单元 | 样本量 |
|------|------|
| 一元二次方程 | 2,062 |
| 二次函数 | 1,408 |
| 展开与因式分解 | 2,827 |
| 平方根 | 2,599 |
**IA**
| 知识点单元 | 样本量 |
|------|------|
| 二次函数 | 1,174 |
| 排列组合与概率 | 2,393 |
| 数与式 | 1,922 |
| 整数的性质(数学与人类活动) | 1,965 |
**IIB**
| 知识点单元 | 样本量 |
|------|------|
| 各类代数式 | 1,407 |
| 三角函数 | 1,920 |
| 微分法与积分法 | 1,462 |
| 指数与对数 | 1,649 |
| 数列 | 2,550 |
| 统计推断 | 2,575 |
**IIIC**
| 知识点单元 | 样本量 |
|------|------|
| 向量 | 1,160 |
| 平面曲线与复平面 | 1,319 |
| 微分 | 1,809 |
| 极限 | 1,166 |
| 积分 | 1,329 |
提供机构:
azuki-digital



