U-MATH 和 μ-MATH

github2024-12-05 更新2024-12-11 收录

下载链接：

https://github.com/Toloka/u-math

下载链接

链接失效反馈

官方服务：

资源简介：

U-MATH提供了一组1,100个大学水平的数学问题，而μ-MATH则通过一个元评估框架专注于解决方案的判断，包含1084个LLM解决方案。

U-MATH provides 1,100 college-level mathematics problems, while μ-MATH focuses on the judgment of solutions through a meta-evaluation framework and contains 1,084 LLM solutions.

创建时间：

2024-12-04

原始信息汇总

U-MATH 和 μ-MATH 数据集

概述

U-MATH 和 μ-MATH 是用于测试大型语言模型（LLMs）在大学级别数学问题上的推理和元评估能力的基准数据集。

U-MATH：包含 1,100 道大学级别的数学问题。
μ-MATH：提供了一个元评估框架，专注于对 1084 个 LLM 解决方案的判断。

数据集链接

U-MATH：Huggingface 上的 U-MATH 基准
μ-MATH：Huggingface 上的 μ-MATH 基准

数据集结构和使用

文件结构

solve_u_math.py：用于生成 U-MATH 问题解决方案的脚本。
judge_u_math.py：用于评估 U-MATH 解决方案正确性的脚本。
judge_mu_math.py：用于评估 μ-MATH 解决方案质量的脚本。
README.md：本文件。
requirements.txt：运行脚本所需的依赖项列表。

使用方法

解决 U-MATH 问题

运行以下命令生成 U-MATH 问题的解决方案： shell python solve_u_math.py --base_url <BASE_URL> --api_key <YOUR_API_KEY> --model <MODEL_NAME> --output_file predictions_u_math.json

评估 U-MATH 解决方案

运行以下命令评估 U-MATH 解决方案的正确性： shell python judge_u_math.py --base_url <BASE_URL> --api_key <YOUR_API_KEY> --model <MODEL_NAME> --predictions_file predictions_u_math.json --output_file judgments_u_math.json

评估 μ-MATH 的判断质量

运行以下命令评估 μ-MATH 解决方案的判断质量： shell python judge_u_math.py --base_url <BASE_URL> --api_key <YOUR_API_KEY> --model <MODEL_NAME> --output_file judgments_mu_math.json

许可证信息

μ-MATH 的 model_output 列中的机器生成内容受底层 LLM 的许可条款约束。
U-MATH 和 μ-MATH 数据集的其他所有字段内容以及代码均在 MIT 许可证下提供。

引用

如果您在研究中使用了 U-MATH 或 μ-MATH，请引用以下论文： bibtex @inproceedings{umath2024, title={U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs}, author={Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov and Sergei Tilga}, year={2024} }

联系方式

如有疑问，请联系 kchernyshev@toloka.ai。

搜集汇总

数据集介绍

构建方式

U-MATH和μ-MATH数据集的构建旨在评估大型语言模型（LLMs）在大学级别数学问题上的推理和元评估能力。U-MATH数据集包含1,100道大学级别的数学问题，而μ-MATH则通过1,084个LLM生成的解决方案，提供了一个专注于解决方案判断的元评估框架。这两个数据集的设计不仅涵盖了广泛的数学领域，还通过严格的评估标准确保了数据集的可靠性和挑战性。

特点

U-MATH和μ-MATH数据集的显著特点在于其高难度和专业性，专门针对大学级别的数学问题，能够有效测试LLMs的推理能力。μ-MATH的元评估框架进一步增强了数据集的复杂性，通过评估LLMs对解决方案的判断能力，提供了对模型性能的深入洞察。此外，数据集的结构化和标准化设计使得其易于集成到现有的机器学习框架中，便于研究人员进行模型训练和评估。

使用方法

使用U-MATH和μ-MATH数据集时，用户可以通过提供的脚本生成和评估解决方案。首先，使用`solve_u_math.py`脚本生成U-MATH问题的解决方案，然后通过`judge_u_math.py`脚本评估这些解决方案的正确性。对于μ-MATH数据集，用户可以使用`judge_mu_math.py`脚本评估LLM对解决方案的判断质量。所有脚本均支持自定义API和模型参数，确保灵活性和适应性。

背景与挑战

背景概述

U-MATH和μ-MATH数据集由Toloka团队开发，旨在评估大型语言模型（LLMs）在大学级别数学问题上的推理和元评估能力。U-MATH包含1,100个大学级别的数学问题，而μ-MATH则提供了一个元评估框架，专注于对LLM生成的1,084个解决方案进行判断。这两个数据集的创建旨在推动LLMs在复杂数学问题上的表现，并为相关领域的研究提供基准。该数据集的发布时间为2024年，主要研究人员包括Konstantin Chernyshev等人，其研究成果已在arXiv上发表，对提升LLMs在数学推理领域的应用具有重要影响。

当前挑战

U-MATH和μ-MATH数据集面临的挑战主要集中在两个方面。首先，构建大学级别的数学问题集需要高度的专业知识和复杂的数学背景，确保问题的多样性和难度适中。其次，元评估框架μ-MATH的设计需要解决如何准确评估LLM生成解决方案的质量，这涉及到对解决方案的正确性、逻辑性和完整性进行多维度判断。此外，数据集的构建还需考虑如何处理和整合不同LLM生成的解决方案，确保评估的公平性和一致性。这些挑战不仅推动了数据集的精细化设计，也为未来LLMs在数学推理领域的进一步发展提供了研究方向。

常用场景

经典使用场景

U-MATH和μ-MATH数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在大学级别数学问题上的推理和元评估能力。U-MATH数据集包含1,100个大学级别的数学问题，适用于测试模型在复杂数学问题上的解答能力。而μ-MATH则通过1,084个LLM生成的解答，专注于评估模型对解答的判断能力，从而形成了一个全面的数学推理评估框架。

实际应用

在实际应用中，U-MATH和μ-MATH数据集为教育科技、自动化辅导系统以及智能评估工具提供了重要的支持。例如，这些数据集可以用于开发智能数学辅导系统，帮助学生解决复杂的数学问题，并提供个性化的学习反馈。此外，它们还可以用于评估和改进在线教育平台中的自动评分系统，提升教育资源的智能化水平。

衍生相关工作

基于U-MATH和μ-MATH数据集，研究者们已经开展了一系列相关工作，包括但不限于改进数学推理模型的训练方法、开发新的评估指标以及探索模型在不同数学领域中的应用。这些工作不仅深化了对LLMs数学推理能力的理解，还为未来的研究提供了丰富的实验数据和评估框架，推动了人工智能在教育领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集