five

Arc-ATLAS-Teach-v0

收藏
Hugging Face2025-09-08 更新2025-09-09 收录
下载链接:
https://huggingface.co/datasets/Arc-Intelligence/Arc-ATLAS-Teach-v0
下载链接
链接失效反馈
官方服务:
资源简介:
Arc-ATLAS-Teach-v0是一个高质量的自适应教学数据集,用于训练教师模型,以提高所有能力水平学生的学习表现。该数据集代表了从传统的“推理对齐”到“教学有效性”的转变,即训练模型询问“这个学生需要什么?”而不是“我如何展示我的推理?”
创建时间:
2025-09-07
原始信息汇总

Arc-ATLAS-Teach-v0 数据集概述

数据集摘要

Arc-ATLAS-Teach-v0 是一个高质量的自适应教学数据集,用于训练教师模型以提升所有能力水平学生的表现。该数据集代表了从传统"推理对齐"到教学有效性的范式转变——教导模型思考"这个学生需要什么?"而非"如何展示我的推理?"

核心创新

  • 诊断:通过最小化探查揭示学生能力
  • 适应:根据特定学生需求调整教学内容
  • 提升:在不降低性能的情况下增强表现
  • 优化:针对教学有效性而非推理展示

数据集统计

  • 总样本数:1,311
  • BigMath-RL 样本:826(63%)
  • MathDial-AIME 样本:501(38%)

自适应教学框架

双通道教学协议

  1. 诊断探查(通道1):教师询问"简要概述你的方法"以揭示学生理解(≤50个词元)
  2. 自适应教学(通道2):教师生成针对诊断差距的精确条件指令

奖励设计

使用非对称奖励,严重惩罚性能下降(-2倍),同时按教学效率比例奖励改进

教学标记

  • (probing):97%覆盖率 - 针对部分理解的引导性问题
  • (focus):100%覆盖率 - 引导关注关键概念
  • (telling):30%覆盖率 - 在需要时提供基础知识

模型配置

  • 学生模型
    • 弱能力:Qwen3-4B-Instruct-2507
    • 中等能力:Qwen3-30B-A3B-Instruct-2507
    • 强能力:Qwen3-235B-A22B-Instruct-2507
  • 教师模型:Qwen3-235B-A22B-Instruct-2507

非退化率

  • 平均值:97.8%(学生在教学后保持或提升表现)

数据集创建方法

问题选择与筛选

BigMath-RL 数据集(810个样本)

  • 选自Big-Math-RL-Verified-Processed的4-5级(AIME难度)
  • 筛选基线性能<0.5的问题
  • 每个问题测试3种学生能力水平

MathDial-Escalated 数据集(501个样本)

  • 使用Qwen2.5-72B将原始7年级问题升级至AIME难度
  • 167个问题×3种学生变体=501个样本
  • 保留原始MathDial对话的教学标记

双通道生成协议

通道1:诊断探查

  • 学生模型生成方法概述(≤50个词元)
  • 仅进行策略规划,不求解

通道2:自适应教学

  • 教师模型接收问题+学生方法
  • 生成诊断和针对性教学

质量保证

  • 通过实际推理验证基线性能
  • 测量教学有效性
  • 跟踪非退化率
  • 人工审查教学标记使用

数据来源

  1. BigMath-RL-Verified-Processed(826个样本)

    • AIME级别竞赛数学问题
    • 深度数学推理
    • 0-999整数答案
  2. MathDial(501个样本)

    • 从7年级升级至AIME难度
    • 保留教学对话模式
    • 每个问题3种学生变体

数据集文件

1. training/sft.jsonl(1,311条记录)

监督微调最小字段:

  • problem_text:数学问题
  • student_approach:学生初始方法
  • teacher_diagnosis:教师能力评估
  • teacher_teaching:带教学标记的自适应教学

2. training/rl.jsonl(1,311条记录)

强化学习完整字段:

  • 包含所有SFT字段
  • ground_truth:正确答案
  • baseline_score:无教学学生表现
  • with_teaching_score:有教学学生表现
  • uplift:教学带来的性能提升

3. training/rl_headroom.jsonl(541条记录)

最大奖励方差过滤子集:

  • 仅包含baseline_score < 1.0uplift > 0的记录
  • 针对GRPO/GSPO训练效率优化

使用示例

python from datasets import load_dataset dataset = load_dataset("Arc-Intelligence/Arc-ATLAS-Teach-v0")

记录结构示例

json { "schema_version": "ast_sft.v0.1", "problem_id": "atlas.math.bigmath.adapt.hf.000111.weak", "domain": "math", "source_dataset": "open-r1/Big-Math-RL-Verified-Processed", "license": "CC-BY-4.0", "problem_text": "...", "student": { "model_id": "Qwen/Qwen3-4B-Instruct-2507", "approach": "...", "plan_tokens": 35, "baseline_score": 0.0, "error_tags": [] }, "teacher": { "diagnosis": "...", "teaching": "...", "teaching_tokens": 41, "style_only": false } }

版本历史

  • v0.2.0(2025-09-08):完整数据集发布,1,311个样本
  • v0.1.0(2025-09-07):初始测试版本

许可证

CC-BY-4.0

引用

bibtex @dataset{arc_atlas_teach_v0, title={Arc-ATLAS-Teach-v0: Adaptive Teaching Dataset for Mathematics}, author={Arc Intelligence}, year={2025}, publisher={HuggingFace}, version={0.2.0} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自适应教学研究领域,Arc-ATLAS-Teach-v0数据集的构建采用了创新的双阶段生成协议。首先从BigMath-RL和MathDial两大来源精心筛选问题,前者选取美国数学邀请赛难度题目并过滤基线表现低于0.5的问题,后者将七年级数学问题通过大模型提升至竞赛难度。每个问题配备弱、中、强三种能力水平的学生模型生成的解题思路,再由教师模型进行诊断并生成针对性教学内容,整个过程通过实际推理验证确保质量。
使用方法
使用者可通过HuggingFace数据集库直接加载该数据集,系统自动识别可用文件。针对不同训练目标,提供了三个专项文件:sft.jsonl用于监督微调,包含问题文本、学生思路和教师诊断等核心字段;rl.jsonl扩展了标准答案、基线分数和教学提升等强化学习所需字段;rl_headroom.jsonl则筛选出具有明显提升空间的样本,优化训练效率。加载时需指定文件名和存储库类型,数据以jsonl格式逐行存储,每条记录包含完整的教学交互元数据。
背景与挑战
背景概述
Arc-ATLAS-Teach-v0数据集由Arc Intelligence团队于2025年构建,代表了自适应教学领域的重要突破。该数据集将传统“推理对齐”范式转向教学有效性优化,核心研究问题聚焦于如何训练教师模型通过诊断学生能力水平来提供个性化教学指导。其创新性体现在两阶段教学协议设计:第一阶段通过简短提问诊断学生认知状态,第二阶段生成针对性教学内容。这一框架显著提升了不同能力层次学生的数学问题解决性能,非退化率达到97.8%,为教育人工智能领域提供了新的方法论基础。
当前挑战
该数据集致力于解决数学自适应教学中的核心挑战:如何准确诊断学生认知状态并生成差异化指导策略。构建过程中面临多重技术难题:需要设计有效的诊断探针在50个词符内揭示学生理解程度;需确保教学干预不会导致性能退化,为此采用不对称奖励机制,对性能退化施加双倍惩罚;还需保持教学标记的恰当使用,如引导性问题(probing)覆盖97%案例,重点聚焦(focus)实现全覆盖,而直接告知(telling)仅控制在30%以内。此外,数据源整合也具挑战性,需将BigMath-RL的竞赛数学题与MathDial升级后的教学对话进行有机融合。
常用场景
经典使用场景
在数学教育智能化领域,Arc-ATLAS-Teach-v0数据集通过双轮诊断教学协议展现其核心价值。教师模型首轮通过限长提问快速诊断学生认知水平,次轮基于诊断结果生成精准适配的教学内容,这种动态交互模式显著提升了数学问题求解的教学效果,特别适用于美国数学邀请赛(AIME)难度的高阶数学推理场景。
解决学术问题
该数据集突破了传统推理对齐范式的局限,致力于解决自适应教学中的关键学术问题:如何实现无标注条件下的学生能力诊断、如何构建非对称奖励机制避免教学负效应、如何通过教学标记系统实现可解释的教学策略。其97.8%的非性能退化率验证了教学有效性,为教育人工智能提供了可量化的评估基准。
实际应用
在实际应用层面,该数据集支撑智能辅导系统的核心模块开发,能够为不同能力层级的学习者提供个性化教学方案。其教学标记系统(probing/focus/telling)可直接集成到在线教育平台,实现实时学习诊断与自适应内容推送,特别适用于竞赛数学培训、个性化学习路径规划等教育科技场景。
数据集最近研究
最新研究方向
在数学教育人工智能领域,Arc-ATLAS-Teach-v0数据集引领了从传统推理对齐向自适应教学范式的转型。该数据集通过双阶段诊断教学框架,推动教师模型实现对学生能力的精准评估与个性化内容生成,显著提升了不同能力层次学生的数学问题解决效能。当前研究聚焦于教学标记系统的优化与强化学习奖励机制的精细化设计,特别是在非退化率保持97.8%的前提下最大化教学效率。这一方向与教育大模型的可解释性研究和个性化学习系统开发形成深度联动,为构建下一代智能教育基础设施提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作