U-MATH 和 μ-MATH
收藏U-MATH 和 μ-MATH 数据集
概述
U-MATH 和 μ-MATH 是用于测试大型语言模型(LLMs)在大学级别数学问题上的推理和元评估能力的基准数据集。
- U-MATH:包含 1,100 道大学级别的数学问题。
- μ-MATH:提供了一个元评估框架,专注于对 1084 个 LLM 解决方案的判断。
数据集链接
- U-MATH:Huggingface 上的 U-MATH 基准
- μ-MATH:Huggingface 上的 μ-MATH 基准
数据集结构和使用
文件结构
solve_u_math.py:用于生成 U-MATH 问题解决方案的脚本。judge_u_math.py:用于评估 U-MATH 解决方案正确性的脚本。judge_mu_math.py:用于评估 μ-MATH 解决方案质量的脚本。README.md:本文件。requirements.txt:运行脚本所需的依赖项列表。
使用方法
解决 U-MATH 问题
运行以下命令生成 U-MATH 问题的解决方案: shell python solve_u_math.py --base_url <BASE_URL> --api_key <YOUR_API_KEY> --model <MODEL_NAME> --output_file predictions_u_math.json
评估 U-MATH 解决方案
运行以下命令评估 U-MATH 解决方案的正确性: shell python judge_u_math.py --base_url <BASE_URL> --api_key <YOUR_API_KEY> --model <MODEL_NAME> --predictions_file predictions_u_math.json --output_file judgments_u_math.json
评估 μ-MATH 的判断质量
运行以下命令评估 μ-MATH 解决方案的判断质量: shell python judge_u_math.py --base_url <BASE_URL> --api_key <YOUR_API_KEY> --model <MODEL_NAME> --output_file judgments_mu_math.json
许可证信息
- μ-MATH 的
model_output列中的机器生成内容受底层 LLM 的许可条款约束。 - U-MATH 和 μ-MATH 数据集的其他所有字段内容以及代码均在 MIT 许可证下提供。
引用
如果您在研究中使用了 U-MATH 或 μ-MATH,请引用以下论文: bibtex @inproceedings{umath2024, title={U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs}, author={Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov and Sergei Tilga}, year={2024} }
联系方式
如有疑问,请联系 kchernyshev@toloka.ai。




