five

filtered_kaggle_data

收藏
Hugging Face2025-08-04 更新2025-08-05 收录
下载链接:
https://huggingface.co/datasets/tarona/filtered_kaggle_data
下载链接
链接失效反馈
官方服务:
资源简介:
filtered_kaggle_data数据集是从Kaggle的Math problems IMO数据集经过筛选得到的,仅包含带有答案的问题。数据集中的问题难易度是通过Qwen/Qwen3-8B-AWQ模型评估的,并按照IMO标准分为基础(Basic)、中级(Intermediate)、高级(Advanced)、冠军(Champion)、精英(Elite)和传奇(Legendary)六个级别。请注意,这个难易度评级是简化的,并不代表问题的解决率,仅作为筛选简单问题的参考。
创建时间:
2025-08-03
原始信息汇总

数据集概述:filtered_kaggle_data

数据集来源

  • 原始数据集:Math problems IMO
  • 本数据集为原始数据集中包含"answer"字段的过滤版本

数据集结构

  • 配置名称:data_for_seed
  • 特征字段:
    • id (int64):唯一标识符
    • question (string):数学问题描述
    • output (string):输出内容
    • answer (int64):问题答案
    • math_skill (string):数学技能分类
    • difficulty (string):问题难度等级

数据规模

  • 训练集:
    • 样本数量:30,724
    • 文件大小:43,295,111字节
  • 下载大小:21,267,461字节
  • 数据集总大小:43,295,111字节

难度等级说明

  • 采用Qwen/Qwen3-8B-AWQ模型进行难度判定
  • IMO标准难度分级:
    • Basic(基础)
    • Intermediate(中级)
    • Advanced(高级)
    • Champion(冠军级)
    • Elite(精英级)
    • Legendary(传奇级)
  • 注意事项:
    • 难度评级为简易判定结果,非实际解题率(solve_rate)
    • 仅建议作为简单问题排除的参考依据
搜集汇总
数据集介绍
main_image_url
构建方式
在数学问题求解领域,filtered_kaggle_data数据集源自Kaggle平台上的Math problems IMO原始集合,通过严格的筛选机制仅保留包含标准答案的题目。其构建过程采用自动化过滤技术,确保数据质量与完整性,最终形成包含30,724个训练样本的结构化数据集,每个样本均具备唯一标识符、问题描述、输出内容及参考答案。
使用方法
研究者可借助该数据集开展数学问题自动求解模型的训练与评估,尤其适用于探究不同难度级别题目的算法表现。使用时应关注难度标签的参考性质,建议结合领域知识进行二次校验。数据以标准表格格式组织,支持直接加载至机器学习框架进行批处理或增量学习实验。
背景与挑战
背景概述
数学问题求解数据集filtered_kaggle_data源于国际数学奥林匹克竞赛(IMO)题库,由Kaggle社区用户Artem Goncarov整理并公开。该数据集通过智能过滤技术保留含标准答案的数学问题,涵盖代数、几何、数论等多个数学分支。借助Qwen/Qwen3-8B-AWQ大模型对题目难度进行自动化分级,采用IMO竞赛标准的六层级分类体系,为数学教育智能化研究提供了结构化数据支撑。此类数据集的出现推动了自适应学习系统和自动解题模型的发展,尤其在数学思维的计算建模领域具有显著影响力。
当前挑战
该数据集核心挑战在于数学问题自动难度标注的可靠性,当前依赖单一模型Qwen/Qwen3-8B-AWQ进行难度分级,缺乏人类专家验证机制,可能导致标签信度不足。构建过程中需解决原始数据噪声过滤问题,包括答案格式标准化、多语言题目处理以及异常样本剔除。领域层面需应对数学符号的语义解析挑战,不同数学分支的问题需要特定的表征学习方法,且高阶数学问题涉及复杂的逻辑推理链条,对现有自然语言处理模型构成显著考验。
常用场景
经典使用场景
在数学教育技术研究中,filtered_kaggle_data数据集常被用于训练和评估自动解题系统。该数据集包含数万道数学问题及其答案,覆盖从基础到高级的多个难度层级,为研究者提供了丰富的监督学习样本。通过分析问题表述与答案之间的映射关系,模型能够学习数学推理的基本模式,进而提升自动解题的准确性和泛化能力。
解决学术问题
该数据集有效解决了数学自动推理领域中的监督数据稀缺问题。通过提供结构化的数学问题-答案对,它支持了神经网络模型在数学语言理解、符号运算和逻辑推理等方面的训练与验证。其难度标注体系为研究不同复杂度问题的求解机制提供了分层实验基础,推动了教育人工智能在认知难度适应性方面的研究进展。
实际应用
在实际应用中,该数据集为智能教育平台构建自适应数学辅导系统提供了核心训练资源。系统能够根据学生的能力水平动态推荐相应难度的题目,实现个性化学习路径规划。此外,在线评测平台可利用该数据集构建自动批改系统,实时评估学生的解题过程与结果,显著减轻教师批改负担并提升教学效率。
数据集最近研究
最新研究方向
在数学问题求解领域,filtered_kaggle_data数据集正推动自动化难度评估与智能解题模型的前沿探索。研究者借助Qwen等大型语言模型对题目进行多层级难度标注,为自适应教育系统与竞赛级数学问题的机器学习泛化能力研究提供关键数据支撑。该数据集与当前AI数学推理热点紧密结合,尤其在模型鲁棒性检验与知识迁移研究方面显现重要价值,为构建下一代数学教育工具奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作