qwedsacf/competition_math|数学竞赛数据集|机器学习数据集

hugging_face2023-01-28 更新2024-03-04 收录

数学竞赛

机器学习

下载链接：

https://hf-mirror.com/datasets/qwedsacf/competition_math

下载链接

链接失效反馈

资源简介：

数学启发式能力测试（MATH）数据集包含来自数学竞赛的问题，如AMC 10、AMC 12、AIME等。每个问题都有详细的步骤解答，可用于训练模型生成答案推导和解释。数据集的格式包括问题、解答、难度级别和问题类型。

提供机构：

qwedsacf

原始信息汇总

数据集概述

数据集名称

名称: Mathematics Aptitude Test of Heuristics (MATH)

数据集属性

语言: 英语 (en)
许可证: MIT
多语言性: 单语
大小: 10K<n<100K
来源: 原始数据
任务类别: 文本到文本生成
标签: 解释生成

数据集内容

概述: MATH 数据集包含来自数学竞赛的问题，包括 AMC 10、AMC 12、AIME 等。每个问题都附有完整的逐步解答，用于训练模型生成答案推导和解释。
数据实例: 每个实例包括一个竞赛数学问题及其用 LaTeX 和自然语言编写的逐步解答。解答中包含用 LaTeX 的 oxed 标签封装的最终答案。
数据字段:
- problem: 竞赛数学问题。
- solution: 逐步解答。
- level: 问题的难度级别，从 Level 1 到 Level 5。
- type: 问题的主题，包括代数、计数与概率、几何、中级代数、数论、预代数和预微积分。

数据集创建

许可证信息: 详见 MIT 许可证
引用信息: bibtex @article{hendrycksmath2021, title={Measuring Mathematical Problem Solving With the MATH Dataset}, author={Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt}, journal={arXiv preprint arXiv:2103.03874}, year={2021} }

AI搜集汇总

数据集介绍

构建方式

MATH数据集的构建，依托于数学竞赛中的问题，涵盖了AMC 10、AMC 12、AIME等多个知名赛事的题目。数据集中的每个问题均配备了完整的分步解答，这些解答以LaTeX和自然语言的形式呈现，旨在训练模型生成答案推导和解释的能力。

特点

MATH数据集的特点在于其专业性和教育性。它不仅包含了数学竞赛的题目，还提供了详尽的解题步骤，有助于模型学习数学问题的解答逻辑。数据集按照题目的难度分为五个等级，涵盖了代数、计数与概率、几何等多个数学分支，保证了数据集的多样性和全面性。

使用方法

使用MATH数据集时，用户可以将其作为训练材料，以提升模型在数学问题解答和解释生成方面的能力。数据集的每个实例都包含问题本身和其解题步骤，用户可以依据这些信息对模型进行监督学习。同时，数据集的开放性许可（MIT协议）也允许用户在遵守协议的前提下，自由地使用和修改数据集。

背景与挑战

背景概述

MATH（Mathematics Aptitude Test of Heuristics）数据集是一项专注于数学竞赛问题的研究成果，由Dan Hendrycks等研究人员于2021年创建。该数据集汇集了包括AMC 10、AMC 12、AIME等在内的数学竞赛题目，并为每一题提供了详细的解题步骤和答案。MATH数据集的核心研究问题是提升数学问题解决能力的评估，其对数学教育领域、自然语言处理以及人工智能辅助教育的研究具有重要的推动作用。

当前挑战

在研究领域，MATH数据集面临的挑战主要在于如何准确评估模型的数学解题能力，并生成符合教育标准的解题步骤和解释。构建过程中，数据集的挑战包括对数学竞赛题目的精准收集、解题步骤的详细标注，以及保证数据的多样性和准确性。此外，数据集在处理敏感信息、避免偏见和公平性问题方面也存在着一定的挑战。

常用场景

经典使用场景

在数学教育及人工智能领域，MATH数据集的典型应用场景在于训练数学解题模型。其详尽的逐步解答记录，为机器学习模型提供了模仿人类解题过程的可能，从而在文本到文本生成任务中，生成准确的数学问题解答及推导过程。

解决学术问题

MATH数据集解决了数学教育中自动生成解题步骤的难题，对于评估和提升机器学习模型在数学解题方面的能力具有重要意义。它不仅帮助研究者理解和改进算法，还为教育技术提供了新的发展方向，助力个性化学习与教学。

衍生相关工作

基于MATH数据集，研究者们已衍生出多项相关工作，包括开发新的数学解题算法、探索数学问题解决的认知过程，以及构建用于教育评估和教学反馈的智能系统，这些工作进一步拓宽了数据集的应用范围和影响力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

全国 1∶200 000 数字地质图（公开版）空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录