RoMath
收藏arXiv2024-09-20 更新2024-09-19 收录
下载链接:
https://github.com/cosmaadrian/romath
下载链接
链接失效反馈官方服务:
资源简介:
RoMath是一个罗马尼亚数学推理基准套件,由三个数据集组成:RoMath-Baccalaureate、RoMath-Competitions和RoMath-Synthetic。这些数据集涵盖了从高中到竞赛级别的多种数学领域和难度级别,旨在提升非英语语言模型的性能并促进多语言AI的发展。数据集通过半自动工作流程收集和整理,使用基础LLM从非结构化的OCR输入中提供结构化输出,并标注相关元数据。RoMath的应用领域包括自动证明生成、验证和从非正式的草图级证明到正式语言的翻译,旨在解决当前AI模型在低资源语言上的局限性。
RoMath is a Romanian mathematical reasoning benchmark suite composed of three datasets: RoMath-Baccalaureate, RoMath-Competitions, and RoMath-Synthetic. These datasets cover a broad spectrum of mathematical domains and difficulty levels ranging from high school to competition-grade levels, aiming to improve the performance of non-English language models and advance the development of multilingual AI. The datasets are collected and curated through a semi-automatic workflow, where base LLMs are utilized to generate structured outputs from unstructured OCR inputs, with relevant metadata annotated accordingly. Application scenarios of RoMath include automated theorem proof generation, verification, and translation from informal sketch-level proofs to formal languages, targeting the current limitations of AI models in low-resource languages.
提供机构:
布加勒斯特理工大学
创建时间:
2024-09-17
原始信息汇总
RoMath: A Mathematical Reasoning Benchmark in Romanian
概述
RoMath是一个罗马尼亚语数学推理基准套件,包含三个数据集:RoMath-Synthetic、RoMath-Baccalaureate和RoMath-Competitions。这些数据集涵盖了不同数学领域和难度级别,旨在改进非英语语言模型并促进多语言AI的发展。
数据集组成
- RoMath-Synthetic: 合成数据集。
- RoMath-Baccalaureate: 针对罗马尼亚高中毕业考试的数据集。
- RoMath-Competitions: 针对罗马尼亚数学竞赛的数据集。
实验与使用
实验代码位于experiments/目录中,每个实验都有单独的脚本。使用./do_sbatch.sh <script.sh> <n_gpus>运行特定bash脚本。
模型训练与预测
- 微调模型:
python fine_tune.py --model <hf_model_name> --dataset [bac|comps|synthetic] --output checkpoints/ - 模型预测:
python predict.py --model <hf_model_name> --dataset [bac|comps|synthetic] --temperature 0.5 --k 3 --shots 5 --output predictions/ - 模型评估:
python evaluate.py --pred_file results/Qwen-Qwen2-1.5B-Instruct_bac_2_0.5.csv --judge_model <hf_model_name> --output results/ - 计算评估指标:
python evaluate/compute_metrics.py --input_dir results/ --output_dir metrics/
翻译与Judge数据集构建
- 翻译: 使用
translate.py和predict_translated.py脚本。 - 构建Judge数据集: 运行
evaluate/make_judge_dataset.py和evaluate_judge.py脚本。
引用
@misc{cosma2024romath, title={RoMath: A Mathematical Reasoning Benchmark in Romanian}, author={Adrian Cosma and Ana-Maria Bucur and Emilian Radoi}, year={2024}, eprint={2409.11074}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.11074}, }
许可证
搜集汇总
数据集介绍

构建方式
RoMath数据集通过精心设计的流程构建,涵盖了罗马尼亚语中的数学推理问题。该数据集包括三个子集:RoMath-Baccalaureate、RoMath-Competitions和RoMath-Synthetic。构建过程中,首先从公开的PDF文件中爬取数学问题及其解答,使用MathPix进行OCR处理,将数学公式和陈述转换为LaTeX格式,并最终输出为Markdown格式。随后,利用强大的商业LLM(如Claude 3 Sonnet)将非结构化的Markdown内容解析为结构化的JSON格式,确保每个子问题自成一体,且解答不依赖于前序子问题的解答。
特点
RoMath数据集的显著特点在于其专注于罗马尼亚语,填补了非英语数学推理基准的空白。数据集包含高中水平的多种数学领域问题,如线性代数、微积分、几何和概率等,难度从简单计算到毕业考试级别,再到更具挑战性的竞赛级别问题。此外,RoMath-Synthetic子集通过程序化生成问题,确保了问题的高质量和多样性。
使用方法
RoMath数据集适用于评估和提升非英语语言模型的数学推理能力。使用者可以通过该数据集对模型进行训练和微调,以提高其在罗马尼亚语数学问题上的表现。数据集还提供了详细的评估程序,包括使用LLM作为评判模型来估计解答的正确性。此外,RoMath的开源代码和数据集资源使得研究者和开发者能够方便地进行实验和应用。
背景与挑战
背景概述
RoMath数据集由Adrian Cosma、Ana-Maria Bucur和Emilian Radoi于2024年创建,旨在解决非英语语言在数学推理基准中的缺失问题。该数据集包含三个子集:RoMath-Baccalaureate、RoMath-Competitions和RoMath-Synthetic,涵盖了从高中到竞赛级别的多种数学领域和难度。通过专注于罗马尼亚语这一低资源语言,RoMath不仅填补了多语言AI发展的空白,还强调了超越简单自动翻译的专用资源的重要性。该数据集的发布标志着数学推理模型在非英语语言中的重要进展,并为多语言AI的进一步研究提供了坚实基础。
当前挑战
RoMath数据集面临的挑战主要集中在两个方面:一是解决领域问题,即数学推理在非英语语言中的应用;二是构建过程中遇到的困难。首先,现有的数学推理基准主要集中在英语,忽视了其他语言的独特性,这导致了Anglo-centric模型的局限性。其次,构建过程中,研究人员需要克服罗马尼亚语这一低资源语言的词汇和语法特性,确保数据集的质量和多样性。此外,评估数学推理解决方案的正确性也是一个开放问题,当前主要依赖于外部LLM作为评判,但其可靠性和准确性仍需进一步研究。
常用场景
经典使用场景
RoMath数据集在数学推理领域中具有经典的使用场景,特别是在非英语语言模型的改进和多语言AI开发中。该数据集通过提供罗马尼亚语的数学推理问题,涵盖了从高中水平到竞赛级别的多种数学领域和难度级别,从而促进了非英语语言模型的发展。通过专注于罗马尼亚语这一低资源语言,RoMath解决了以英语为中心的模型的局限性,强调了在简单自动翻译之外,需要专门的资源来支持多语言AI的发展。
实际应用
RoMath数据集在实际应用中具有广泛的前景,特别是在教育和技术领域。在教育方面,该数据集可以用于开发针对罗马尼亚语学生的数学教育工具和评估系统,帮助学生提高数学推理能力。在技术领域,RoMath可以用于训练和评估AI模型,特别是在需要处理多语言数学文本的场景中,如自动证明生成、验证和从非正式证明到正式语言的翻译。此外,该数据集还可以用于开发多语言的数学辅助工具,帮助全球用户解决数学问题。
衍生相关工作
RoMath数据集的发布催生了一系列相关的经典工作,特别是在多语言数学推理和AI模型的改进方面。例如,基于RoMath的研究已经推动了罗马尼亚语和其他低资源语言的数学推理模型的开发,促进了多语言AI的发展。此外,RoMath还激发了对AI模型在处理非英语数学文本时性能的研究,推动了跨语言数学推理能力的提升。这些工作不仅扩展了AI在数学领域的应用,还为多语言AI的研究提供了新的方向和方法。
以上内容由遇见数据集搜集并总结生成



