AtomMATH|数学推理数据集|多模态数据数据集
收藏AtomThink 数据集概述
数据集详情
数据集名称
- AtomMATH
数据集用途
- 用于指令微调(AMATH-SFT)和训练策略奖励模型(AMATH-PRM)。
数据集来源
- 数据集包含多个子数据集,具体如下:
Source | Meta Samples | AMATH-SFT | AMATH-PRM |
---|---|---|---|
CLEVR | 1929 | 11.2k | 25k |
Geometry3K | 1201 | 11.1k | 15.6k |
MAVIS | 3654 | 17.7k | 30.5k |
TabMWP | 2463 | 15.7k | 25.7k |
GeomVerse | 1347 | 9.9k | 17k |
MathV360K | 10157 | 53.5k | 24.8k |
MMMU | 76 | 0.6k | 1.2k |
GeoQA+ | 2082 | 19.5k | 0 |
IconQA | 3199 | 18.1k | 0 |
Total | 26108 | 157k | 130k |
数据集示例
-
AMATH-SFT 数据集示例:
- 示例1:
- 示例2:
- 示例1:
-
AMATH-PRM 数据集示例:
- 示例1:
- 示例2:
- 示例1:

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国区域环境数据库
该数据集包含中国各区域的环境数据,涵盖空气质量、水质、土壤污染等多个方面的指标。数据以时间序列的形式记录,便于进行长期的环境变化分析。
www.mee.gov.cn 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录
WeChat Social Network Dataset
该数据集包含了微信社交网络的用户关系数据,包括用户之间的关注关系、互动行为等。数据集旨在帮助研究社交网络的结构和动态变化。
www.aminer.cn 收录