five

U-MATH 数学推理数据集

收藏
超神经2024-12-20 更新2024-12-14 收录
下载链接:
https://hyper.ai/cn/datasets/36387
下载链接
链接失效反馈
官方服务:
资源简介:
U-MATH 数据集是一个专门用于评估大型语言模型 (LLMs) 在数学推理方面能力的综合基准测试集,这个数据集由 Toloka AI 与 Gradarius 于 2024 年合作创建,相关论文成果为「U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs」。这个数据集包含了 1,100 个未公开的大学水平数学问题,这些问题来源于真实的教学材料,并涵盖了 6 个核心数学主题:初等数学、代数、微分学、积分学、多变量微积分以及序列与级数。

The U-MATH dataset is a comprehensive benchmark suite specifically developed to evaluate the mathematical reasoning capabilities of Large Language Models (LLMs). It was collaboratively created by Toloka AI and Gradarius in 2024, with the corresponding research paper entitled "U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs". The dataset encompasses 1,100 undisclosed university-level mathematics problems derived from real-world instructional materials, covering six core mathematical topics: elementary mathematics, algebra, differential calculus, integral calculus, multivariable calculus, and sequences and series.
创建时间:
2024-12-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
U-MATH是一个由Toloka AI与Gradarius于2024年合作开发的数学推理基准数据集,专门用于评估大型语言模型在大学水平数学问题上的能力。该数据集包含1,100道源自真实教学材料的未公开问题,涵盖六个核心数学主题,其中约20%的问题涉及图形和图表等多模态元素,以测试模型的视觉信息处理与推理能力。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务