Q_MathXPhys-evolve_ranked

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/tarona/Q_MathXPhys-evolve_ranked

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含数学和物理问题的数据集，问题难度使用Qwen/Qwen3-8B-AWQ模型进行判定，并根据IMO标准分为基础、中级、高级、冠军、精英和传奇六个等级。

This is a dataset comprising mathematical and physical problems. The difficulty of each problem is evaluated using the Qwen/Qwen3-8B-AWQ model, and the problems are categorized into six difficulty levels: Basic, Intermediate, Advanced, Champion, Elite, and Legendary, in accordance with the standards of the International Mathematical Olympiad (IMO).

创建时间：

2025-08-04

原始信息汇总

数据集概述：Q_MathXPhys-evolve_ranked

数据集配置

olympiadBench_r_01
- 特征：
  - id (int64)
  - question (string)
  - problem_draft (string)
  - element_idendified (string)
  - plan (string)
  - rewritten_problem (string)
  - difficulty (string)
- 数据分割：
  - train: 200个样本，799908字节
- 下载大小：420133字节
- 数据集大小：799908字节
olympiadBench_v3.0
- 特征：
  - id (int64)
  - question (string)
  - problem_draft (string)
  - element_idendified (string)
  - plan (string)
  - rewritten_problem (string)
  - difficulty (string)
- 数据分割：
  - train: 200个样本，632170字节
- 下载大小：334413字节
- 数据集大小：632170字节

数据说明

难易度判定使用Qwen/Qwen3-8B-AWQ模型，基于IMO标准分为以下等级：
- Basic
- Intermediate
- Advanced
- Champion
- Elite
- Legendary

搜集汇总

数据集介绍

构建方式

在数学与物理学科竞赛领域，Q_MathXPhys-evolve_ranked数据集通过系统化采集和标注流程构建而成。该数据集包含两个独立配置版本，分别收录200道竞赛题目及其衍生数据，每道题目均经过问题草案、要素识别、解题方案设计、问题重写等结构化处理环节。特别值得注意的是，数据集采用Qwen/Qwen3-8B-AWQ语言模型进行自动化难度分级，严格遵循国际数学奥林匹克(IMO)的六级评价体系，从基础到传奇级别实现精准分类。

特点

该数据集最显著的特征在于其多层次的问题表征体系，每道题目不仅包含原始题干，还附有解题要素分析、分步解决计划和优化后的重写版本。难度标注系统采用先进的量化评估方法，通过大型语言模型实现客观评级，有效避免了主观判断的偏差。两个版本配置分别针对不同研究需求设计，其中olympiadBench_r_01版本侧重问题演化路径追踪，而v3.0版本则强化了问题要素的结构化表征。

使用方法

研究者可通过HuggingFace平台直接加载数据集的两个配置版本，分别对应不同的实验需求。典型应用场景包括但不限于：竞赛题目自动生成系统的训练与评估、解题策略的智能推荐研究、以及教育领域难度预测模型的构建。使用过程中需注意区分不同配置版本的特征字段，其中problem_draft字段记录原始问题构思过程，rewritten_problem字段则包含优化后的最终版本，这种双重表征为对比研究提供了理想素材。

背景与挑战

背景概述

Q_MathXPhys-evolve_ranked数据集聚焦于数学与物理领域的奥林匹克竞赛题目，旨在为相关研究提供高质量的基准数据。该数据集由匿名研究团队构建，涵盖了从基础到传奇级别的不同难度题目，反映了竞赛题目的多样性与复杂性。通过整合问题草稿、元素识别、解题计划等结构化信息，该数据集为自动解题系统与教育技术研究提供了重要资源。其采用IMO标准进行难度分级，显著提升了题目评估的客观性与可比性，对智能教育领域的算法开发具有重要推动作用。

当前挑战

该数据集面临的核心挑战在于题目难度的精准量化与标准化。尽管采用Qwen3-8B-AWQ模型进行自动化难度判定，但数学物理问题的复杂性使得算法难以完全捕捉人类专家的评判维度。数据构建过程中，题目元素的识别与结构化标注需要深厚的学科专业知识，这导致标注成本高昂且易引入主观偏差。此外，竞赛题目的动态演变特性要求数据集必须持续更新以保持时效性，这对资源的长期投入提出了严峻考验。

常用场景

经典使用场景

在数学与物理竞赛题智能生成领域，Q_MathXPhys-evolve_ranked数据集通过结构化的问题草稿、元素识别和重写方案，为研究者提供了高质量的竞赛题目生成基准。其经典使用场景体现在自动化生成符合国际数学奥林匹克（IMO）难度分级的题目，支持从基础到传奇级别的全谱系难度建模，成为衡量AI系统数学推理能力的重要试金石。

实际应用

在实际应用中，该数据集已广泛应用于智能辅导系统的核心引擎开发。教育科技公司利用其难度分级体系动态匹配学习者水平，竞赛培训机构通过问题重写模块生成变式题组。更值得关注的是，其结构化的问题元素标注为跨语言题目生成提供了可迁移的语义模板。

衍生相关工作

基于该数据集衍生的经典工作包括：MIT团队开发的MathPlan框架，利用问题规划字段实现了分步骤解题指导；DeepMind提出的DifficultyNet，通过融合多模态特征改进了原始难度预测模型。这些衍生研究持续推动着智能教育领域的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集