five

yamaTK/japanese-math-synthetic-108k

收藏
Hugging Face2026-03-01 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/yamaTK/japanese-math-synthetic-108k
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: apache-2.0 task_categories: - question-answering tags: - math - japanese - synthetic size_categories: - 100K<n<1M --- # clean_v1_noassert_allcats LLM-JP チューニングコンテスト 2026 向けに作成した**日本語数学問題の学習データセット**です。 中学1年〜高校数学IIICまでの各カテゴリを網羅しています。問題作成・解法生成・検証のすべてを GPT-OSS (120B) で行い、重複除去を経てクリーニング済みです。 ## データ概要 2種類の分類軸でデータを収録しています。 ### 学年別(中学〜高校カリキュラム準拠) | ファイル | カテゴリ | 行数 | 主な単元 | |----------|----------|------|----------| | `chu1.jsonl` | 中学1年 | 9,610 | 正負の数, 文字式, 一次方程式, 比例反比例 | | `chu2.jsonl` | 中学2年 | 9,761 | 文字式, 一次関数, 連立方程式, 確率 | | `chu3.jsonl` | 中学3年 | 9,454 | 二次方程式, 二次関数, 平方根, 展開と因数分解 | | `IA.jsonl` | 数学IA | 9,881 | 整数の性質, 場合の数と確率, 2次関数, 数と式 | | `IIB.jsonl` | 数学IIB | 11,089 | 数列, いろいろな式, 三角関数, 微分法・積分法, 統計的な推測, 指数・対数 | | `IIIC.jsonl` | 数学IIIC | 3,145 | ベクトル, 極限, 微分, 積分, 複素数平面 | ### トピック別(数学分野別) | ファイル | 分野 | 行数 | |----------|------|------| | `Algebra.jsonl` | 代数 | 9,557 | | `Calculus.jsonl` | 微積分 | 8,378 | | `Complex.jsonl` | 複素数 | 8,871 | | `Linear_Alg.jsonl` | 線形代数 | 9,326 | | `Prob_Stat.jsonl` | 確率・統計 | 9,920 | | `Sequence.jsonl` | 数列 | 9,718 | **合計: 108,710 問**(全ファイル間で重複除去済み) ## データスキーマ 各行は以下のフィールドを持つ JSON オブジェクトです。 | フィールド | 説明 | |-----------|------| | `topic` | カテゴリ名(中1, 中2, 中3, IA, IIB, IIIC, Algebra, Calculus, Complex, Linear_Alg, Prob_Stat, Sequence) | | `keyword` | 数学的キーワード | | `category` | カテゴリ名(topic と同一) | | `unit` | 学習単元(例: 正負の数, 数列) | | `problem_ja` | 日本語の問題文 | | `planner_hint` | 解法のヒント(英語、Planner モデル学習用) | | `step_by_step_thinking` | ステップごとの思考過程 | | `solver_solution` | 詳細な解答・解説 | | `expected_answer` | 正解 | | `generated_answer` | モデルが生成した解答 | | `model` | 問題作成・検証に使用したモデル(`openai/gpt-oss-120b`) | | `verified` | 検証結果(`true`) | ## 用途 3段階パイプラインによる数学問題解答システムの学習データとして使用します。 ``` 問題文 → [LLM1: Planner] → ヒント生成 → [LLM2: Procedure] → 解法ステップ生成 → [LLM3: Code Generator] → Python/SymPy コード生成 → 実行・回答 ``` ## データ作成手順 1. カテゴリ・単元ごとのキーワードを指定し、GPT-OSS (120B) で日本語数学問題を生成 2. 同モデルで解法ヒント(`planner_hint`)、思考過程(`step_by_step_thinking`)、詳細解答(`solver_solution`)を生成 3. GPT-OSS (120B) による解答の検証(`verified: true` のみ収録) 4. カテゴリ間・ソース間の重複除去
提供机构:
yamaTK
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作