yamaTK/japanese-math-synthetic-108k
收藏Hugging Face2026-03-01 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/yamaTK/japanese-math-synthetic-108k
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
license: apache-2.0
task_categories:
- question-answering
tags:
- math
- japanese
- synthetic
size_categories:
- 100K<n<1M
---
# clean_v1_noassert_allcats
LLM-JP チューニングコンテスト 2026 向けに作成した**日本語数学問題の学習データセット**です。
中学1年〜高校数学IIICまでの各カテゴリを網羅しています。問題作成・解法生成・検証のすべてを GPT-OSS (120B) で行い、重複除去を経てクリーニング済みです。
## データ概要
2種類の分類軸でデータを収録しています。
### 学年別(中学〜高校カリキュラム準拠)
| ファイル | カテゴリ | 行数 | 主な単元 |
|----------|----------|------|----------|
| `chu1.jsonl` | 中学1年 | 9,610 | 正負の数, 文字式, 一次方程式, 比例反比例 |
| `chu2.jsonl` | 中学2年 | 9,761 | 文字式, 一次関数, 連立方程式, 確率 |
| `chu3.jsonl` | 中学3年 | 9,454 | 二次方程式, 二次関数, 平方根, 展開と因数分解 |
| `IA.jsonl` | 数学IA | 9,881 | 整数の性質, 場合の数と確率, 2次関数, 数と式 |
| `IIB.jsonl` | 数学IIB | 11,089 | 数列, いろいろな式, 三角関数, 微分法・積分法, 統計的な推測, 指数・対数 |
| `IIIC.jsonl` | 数学IIIC | 3,145 | ベクトル, 極限, 微分, 積分, 複素数平面 |
### トピック別(数学分野別)
| ファイル | 分野 | 行数 |
|----------|------|------|
| `Algebra.jsonl` | 代数 | 9,557 |
| `Calculus.jsonl` | 微積分 | 8,378 |
| `Complex.jsonl` | 複素数 | 8,871 |
| `Linear_Alg.jsonl` | 線形代数 | 9,326 |
| `Prob_Stat.jsonl` | 確率・統計 | 9,920 |
| `Sequence.jsonl` | 数列 | 9,718 |
**合計: 108,710 問**(全ファイル間で重複除去済み)
## データスキーマ
各行は以下のフィールドを持つ JSON オブジェクトです。
| フィールド | 説明 |
|-----------|------|
| `topic` | カテゴリ名(中1, 中2, 中3, IA, IIB, IIIC, Algebra, Calculus, Complex, Linear_Alg, Prob_Stat, Sequence) |
| `keyword` | 数学的キーワード |
| `category` | カテゴリ名(topic と同一) |
| `unit` | 学習単元(例: 正負の数, 数列) |
| `problem_ja` | 日本語の問題文 |
| `planner_hint` | 解法のヒント(英語、Planner モデル学習用) |
| `step_by_step_thinking` | ステップごとの思考過程 |
| `solver_solution` | 詳細な解答・解説 |
| `expected_answer` | 正解 |
| `generated_answer` | モデルが生成した解答 |
| `model` | 問題作成・検証に使用したモデル(`openai/gpt-oss-120b`) |
| `verified` | 検証結果(`true`) |
## 用途
3段階パイプラインによる数学問題解答システムの学習データとして使用します。
```
問題文 → [LLM1: Planner] → ヒント生成
→ [LLM2: Procedure] → 解法ステップ生成
→ [LLM3: Code Generator] → Python/SymPy コード生成 → 実行・回答
```
## データ作成手順
1. カテゴリ・単元ごとのキーワードを指定し、GPT-OSS (120B) で日本語数学問題を生成
2. 同モデルで解法ヒント(`planner_hint`)、思考過程(`step_by_step_thinking`)、詳細解答(`solver_solution`)を生成
3. GPT-OSS (120B) による解答の検証(`verified: true` のみ収録)
4. カテゴリ間・ソース間の重複除去
提供机构:
yamaTK



