five

AcroYAMALEX/acro-yamalex-llmjp-4-math-tir

收藏
Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/AcroYAMALEX/acro-yamalex-llmjp-4-math-tir
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ja license: mit task_categories: - text-generation tags: - math - tool-integrated-reasoning - tir - code-execution - reasoning - japanese - sft size_categories: - 100K<n<1M --- # acro-yamalex-llmjp-4-math-tir(データセット) 日本語数学推論のためのTool-Integrated Reasoning (TIR) データセットです。 自然言語による推論とPythonコード実行を組み合わせたマルチターン形式のデータセットで、[OpenWebMath](https://huggingface.co/datasets/open-web-math/open-web-math)から抽出・生成した問題に対してDeepSeek V3を用いてTIR形式の解法を生成しました。 本データセットは[FT-LLM2026コンペティション](https://llm-jp.github.io/tuning-competition/)における我々のアプローチの一部として構築されました。 ## データセット概要 | 項目 | 値 | |---|---| | データ件数 | 134,834件 | | 言語 | 日本語 | | ソース | [OpenWebMath](https://huggingface.co/datasets/open-web-math/open-web-math) | | 生成モデル | DeepSeek V3 (deepseek-chat) | | フォーマット | JSONL(マルチターン対話形式) | ## データ作成手法 [OpenMathReasoning](https://arxiv.org/abs/2504.16891)(NVIDIAのAIMO-2優勝手法)の枠組みに基づき、以下の手順で作成しました。 ### Step 1: 問題の作成(OpenWebMathからの抽出) OpenWebMathから日本の高校数学レベルに相当する問題素材を得るため、以下のフィルタリングを実施しました。 1. **ドメインフィルタ**: 数学関連ドメイン(math.stackexchange.com, artofproblemsolving.com等)のみを選定 2. **トピックフィルタ**: DeepSeek V3で各ドキュメントの数学トピックを分類し、高校数学に関連するトピック(代数、幾何、微積分等)を抽出 3. **カリキュラムフィルタ**: 日本の高校数学カリキュラム(数学I/II/III/A/B/C)との適合性を判定 4. **問題生成**: フィルタ通過ドキュメントから2種類の問題を生成 - 式の変形問題: 数式の導出過程を問う問題 - 数値計算問題: 具体的な数値を求める問題 ### Step 2: TIR解法の生成 問題に対してDeepSeek V3を用い、TIR形式の解法を生成しました。プロンプトではPythonコードを用いた段階的な推論を指示し、`<think>`タグ内に思考過程、コードブロック内にPythonコードを記述させています。 ### Step 3: Pythonコード実行 生成されたコードブロックをサンドボックス環境で実行し、出力結果を`` ```output ``ブロックとしてモデルにフィードバックしました。実行エラーが発生した場合もエラーメッセージをフィードバックし、モデルに修正を促しています。 ### Step 4: マルチターンループ 最大5回までコード実行とフィードバックを繰り返し、最終回答(`\boxed{}`形式)が生成されるまで対話を継続しました。 ### Step 5: 回答検証 生成された最終回答を元の正解と以下の3段階で照合しました。 | 手法 | 件数 | |---|---| | LLMジャッジ | 95,689件 | | 文字列一致 | 69,770件 | | 数値比較 | 4,335件 | ### Step 6: 品質フィルタ 正解したデータに対して、コードの新規性(novelty)と重要性(significance)を評価し、低品質なデータを除外しました。 ## データフォーマット 各行は以下のJSON構造を持つJSONLファイルです。TIRデータはマルチターン対話形式で、コード実行結果を含みます。 ```json { "messages": [ { "role": "system", "content": "あなたは「自然言語の推論」と「Pythonコードの実行」を組み合わせて数学問題を解くアシスタントです。..." }, { "role": "user", "content": "正の整数 a_0 に対して数列を次の漸化式で定義する..." }, { "role": "assistant", "content": "<think>\nPython を使ってシミュレーションしよう。\n</think>\n```python\ndef compute_sequence(a0):\n a = a0\n ...\n```" }, { "role": "user", "content": "```output\na_0 = 11, a_1 = 88, ...\n```" }, { "role": "assistant", "content": "<think>\n結果を分析すると...\n</think>\n最終答え: $$\\boxed{42}$$" } ] } ``` ### フィールド説明 | フィールド | 説明 | |---|---| | `messages[0]` (system) | TIR推論の役割を指定するシステムプロンプト | | `messages[1]` (user) | 数学の問題文 | | `messages[2]` (assistant) | 思考過程とPythonコードを含む応答 | | `messages[3]` (user) | Pythonコードの実行結果(`` ```output ``ブロック) | | `messages[4+]` | コード実行とフィードバックの繰り返し(最大5回) | ## 用途 - 日本語数学推論モデルのSFT(教師あり微調整) - Tool-Integrated Reasoning(コード実行を伴う推論)の学習 ## 関連リソース | リソース | リンク | |---|---| | CoTデータセット | [AcroYAMALEX/acro-yamalex-llmjp-4-math-cot](https://huggingface.co/datasets/AcroYAMALEX/acro-yamalex-llmjp-4-math-cot) | | CoTモデル | [AcroYAMALEX/acro-yamalex-llmjp-4-math-cot](https://huggingface.co/AcroYAMALEX/acro-yamalex-llmjp-4-math-cot) | | TIRモデル | [AcroYAMALEX/acro-yamalex-llmjp-4-math-tir](https://huggingface.co/AcroYAMALEX/acro-yamalex-llmjp-4-math-tir) | | 論文 | NLP2026にて発表予定 | ## 参考文献 - Ivan Moshkov et al. "AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset." arXiv:2504.16891, 2025. - Keiran Paster et al. "OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text." arXiv:2310.06786, 2024. - DeepSeek-AI. "DeepSeek-V3 Technical Report." arXiv:2412.19437, 2024. ## 著者 佐々木峻・山本大輝・樋口慎・吉岡駿(アクロクエストテクノロジー株式会社) ## ライセンス MIT License
提供机构:
AcroYAMALEX
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作