UTMath

github2024-11-24 更新2024-11-28 收录

下载链接：

https://github.com/UTMathGroup/UTMath

下载链接

链接失效反馈

官方服务：

资源简介：

UTMath是一个严格且广泛的基准，用于评估大型语言模型（LLMs）的数学推理能力，平均每个问题包含68个测试用例，以确保模型真正解决问题而不是简单记忆答案。

UTMath is a rigorous and comprehensive benchmark developed to evaluate the mathematical reasoning capabilities of Large Language Models (LLMs). It features an average of 68 test cases per question, ensuring that models must genuinely solve the problems rather than merely memorizing the answers.

创建时间：

2024-11-04

原始信息汇总

UTMath 数据集概述

数据集简介

名称: UTMath
全称: UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts
描述: UTMath 是一个严格的、广泛的基准测试，旨在评估大型语言模型（LLMs）的数学推理能力。每个问题平均包含68个测试用例，确保模型真正解决问题，而不仅仅是记忆答案。

数据集特点

多案例验证: 问题基于序列，允许使用多个案例验证真正的理解，而非单一案例容易被记忆。
真实推理评估: 通过硬案例和运行时指标帮助过滤记忆，并比较解决方案的效率，精确评估推理能力。
推理到编码的思维（RCoT）方法: 鼓励LLMs在生成代码之前进行显式推理，显著提高解决方案的效率和有效性。

数据集内容

问题数量: 1053个问题
数学领域: 涵盖9个数学领域
测试用例: 每个问题包含超过68个测试用例
文件路径: data/utmath_problem.jsonl

评估方法

评估脚本: 使用 utmath_eval/utmath_evaluator.py 进行评估
示例文件: data/sample_example/gpt-4o_sample.jsonl 包含使用RCoT方法生成的GPT-4o响应样本

RCoT推理

推理脚本: 使用 get_rcot_response.py 进行推理
示例命令: python python get_rcot_response.py --problem_path=data/utmath_problem.jsonl --save_path=data/sample_exapmle/gpt-4o_test.jsonl --model_name=gpt-4o-2024-08-06

引用

论文:

@article{yang2024utmath, title={UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts}, author={Yang, Bo and Yang, Qingping and Liu, Runtao}, journal={arXiv preprint arXiv:2411.07240}, year={2024} }

排行榜

最佳模型: GPT-4o 仅解决了26.93%的问题，展示了基准测试的难度。

研究发现

现代LLMs在图论、群论、几何和拓扑学中的表现较差
RCoT显著提高了LLMs的pass@k性能
推理质量显著影响模型的最终解决方案的准确性和效率

额外数据集

UTMath-Train: 包含超过70,000个问题解决样本，旨在支持社区进一步推进数学推理研究并提高LLM在该领域的表现。

搜集汇总

数据集介绍

构建方式

UTMath数据集通过精心设计的单元测试方法构建，旨在全面评估大型语言模型（LLMs）的数学推理能力。该数据集包含1053个问题，涵盖9个数学领域，每个问题配备超过68个测试案例，确保模型不仅记忆答案，而是真正解决问题。通过多案例验证和真实推理评估，UTMath数据集有效地过滤了记忆效应，并精确衡量了模型的推理能力。

特点

UTMath数据集的主要特点在于其多案例验证和真实推理评估机制。每个问题配备的多个测试案例确保了模型对问题的深入理解和正确解决，而非简单的答案记忆。此外，UTMath引入了Reasoning-to-Coding of Thoughts（RCoT）方法，要求模型在生成代码前进行显式推理，从而显著提升解决方案的效率和效果。

使用方法

使用UTMath数据集进行评估时，用户可通过提供的Python脚本进行。例如，使用`utmath_eval/utmath_evaluator.py`脚本，指定问题文件和样本文件路径即可进行评估。此外，数据集还支持通过OpenAI的API调用GPT-4o模型，并应用RCoT方法进行推理，用户只需设置API密钥并运行相应脚本即可。

背景与挑战

背景概述

UTMath数据集是由杨波、杨清平和刘润涛等研究人员于2024年创建的，旨在评估大型语言模型（LLMs）在数学推理能力上的表现。该数据集通过推理到编码思维（RCoT）的方法，要求模型在生成代码之前进行显式推理，从而提高解决方案的效率和有效性。UTMath包含1053个问题，涵盖9个数学领域，每个问题平均有68个测试用例，确保模型真正解决问题而非简单记忆答案。这一数据集的推出，对提升LLMs在数学推理领域的性能具有重要影响。

当前挑战

UTMath数据集面临的挑战主要包括：1) 确保模型真正理解问题而非记忆答案，通过多案例验证和硬案例评估来实现；2) 评估模型的推理过程而非仅关注最终答案，通过要求代码输出和观察推理过程来实现；3) 在构建过程中，如何设计足够复杂和多样的问题以避免模型通过简单记忆来应对，以及如何确保测试用例的全面性和代表性。此外，数据集还需要解决如何有效评估和比较不同模型在解决数学问题上的效率和准确性。

常用场景

经典使用场景

在数学推理领域，UTMath数据集以其独特的单元测试方法和推理到编码的思维方式，成为评估大型语言模型（LLMs）数学推理能力的重要工具。该数据集通过包含平均68个测试用例的复杂问题，确保模型不仅记忆答案，而是真正解决问题。UTMath的经典使用场景包括对LLMs进行严格的数学推理能力评估，通过多案例验证和真实推理评估，精确衡量模型的推理效率和准确性。

实际应用

在实际应用中，UTMath数据集被广泛用于开发和优化数学推理相关的AI系统。例如，教育科技公司可以利用UTMath评估学生的数学推理能力，提供个性化的学习路径。此外，金融和保险行业也可以使用UTMath来评估和优化其风险模型，确保模型的准确性和可靠性。通过这些应用，UTMath不仅提升了AI系统的性能，还推动了相关行业的技术进步。

衍生相关工作

UTMath数据集的发布催生了多项相关研究工作。例如，研究者们基于UTMath开发了新的评估框架，进一步提升了对LLMs数学推理能力的评估精度。此外，UTMath还激发了对推理到编码思维（RCoT）方法的深入研究，推动了该方法在其他领域的应用。这些衍生工作不仅丰富了数学推理领域的研究内容，也为LLMs的进一步优化提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集