agicorp/MathInstruct|数学数据集|模型训练数据集
收藏数据集概述
名称: MathInstruct
许可证: MIT
任务类别: 文本生成
语言: 英语
大小类别: 10万至100万之间
标签: 数学
数据集详情
- 来源: MathInstruct数据集由13个数学推理数据集组成,其中6个为本工作新编制的。
- 特点: 专注于混合使用链式思维(CoT)和程序思维(PoT)推理,覆盖广泛的数学领域。
- 模型:
- 基础模型: Llama-2 和 Code Llama
- 模型版本:
- 7B: MAmmoTH-7B, MAmmoTH-Coder-7B
- 13B: MAmmoTH-13B, MAmmoTH-Coder-13B
- 34B: MAmmoTH-Coder-34B
- 70B: MAmmoTH-70B
许可证详情
- GSM8K: MIT
- GSM8K-RFT: 未列出
- AQuA-RAT: Apache 2.0
- MATH: MIT
- TheoremQA: MIT
- Camel-Math: Attribution-NonCommercial 4.0 International
- NumGLUE: Apache-2.0
- MathQA: Apache-2.0
- Our Curated: MIT
引用信息
@article{yue2023mammoth, title={MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning}, author={Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen}, journal={arXiv preprint arXiv:2309.05653}, year={2023} }
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录