HRM8K

github2024-12-04 更新2024-12-06 收录

下载链接：

https://github.com/guijinSON/HRM8K

下载链接

链接失效反馈

官方服务：

资源简介：

HRM8K（HAE-RAE Math 8K）是首个公开的韩语数学推理基准数据集。该数据集包含8,011个实例，通过翻译现有的英语基准（如GSM8K、MATH、NuminaMath、MMMLU）和从现有韩语数学考试中精选的原创问题组合而成。HRM8K包含两个子集：Korean School Math（KSM）和Prior Sets。

HRM8K (HAE-RAE Math 8K) is the first publicly available Korean mathematical reasoning benchmark dataset. This dataset contains 8,011 instances, which are compiled by translating existing English benchmarks including GSM8K, MATH, NuminaMath and MMMLU, as well as selecting original questions from existing Korean mathematics examinations. HRM8K includes two subsets: Korean School Math (KSM) and Prior Sets.

创建时间：

2024-12-04

原始信息汇总

HRM8K 数据集概述

数据集简介

HRM8K（HAE-RAE Math 8K）是首个公开的韩语数学推理基准数据集，包含8,011个实例。数据集通过翻译现有的英语基准（如GSM8K、MATH、NuminaMath、MMMLU）和从现有的韩国数学考试中精选的原始问题组合而成。

数据集组成

HRM8K 数据集分为两个子集：

1. Korean School Math (KSM)

包含1,428个来自韩国考试和竞赛的挑战性数学问题。
问题由人工标注者手动截图，通过GPT-4o API进行OCR处理，并由两名标注者交叉检查。

2. Prior Sets

包含6,583个从现有英语基准翻译而来的数学问题。
翻译来源包括GSM8K、MATH、Numina-Math和MMLU。
对于GSM8K、MATH和Numina-Math，翻译使用GPT-4o API，并进行人工质量检查。
对于MMLU，使用OpenAI提供的已翻译版本（MMMLU）。

数据集排行榜

以下是HRM8K数据集的排行榜，展示了不同模型在各个子集上的表现：

模型名称	GSM8K	MATH	OMNI_MATH	MMMLU	KSM	平均分	提供者
GPT-4o	91.21	74.45	30.75	68.72	22.83	57.59	OpenAI
Qwen2.5-72B-Instruct	90.07	72.06	30.96	66.60	23.46	56.63	Alibaba
GPT-4o-Mini	87.57	70.68	26.45	63.40	19.40	53.50	OpenAI
OLV-0.2	80.44	70.61	27.24	54.26	19.19	50.35	OneLineAI
Qwen2.5-32B-Instruct	68.46	66.59	27.34	64.04	23.04	49.89	Alibaba
OLV-0.1	76.65	67.04	24.62	54.04	17.02	47.87	OneLineAI
Llama-3.1-70B-Instruct	79.08	56.05	19.85	60.00	13.10	45.61	Meta
Qwen2.5-14B-Instruct	66.34	53.38	20.64	61.49	15.55	43.48	Alibaba
QwQ-32B-Preview	54.28	49.32	26.19	42.13	25.14	39.41	Alibaba
Llama-3.1-8B-Instruct	77.79	49.01	15.92	47.02	7.21	39.39	Meta
Qwen2.5-7B-Instruct	58.38	48.04	16.55	48.94	13.10	37.00	Alibaba
EXAONE-3.0-7.8B-Instruct	72.33	46.79	15.35	37.66	7.98	36.02	LG AI Research
Gemma-2-9B-it	73.84	44.02	13.83	34.47	6.37	34.51	Google
Solar Pro (preview) Instruct	53.37	31.33	10.74	32.34	6.37	26.83	Upstage
Llama-VARCO-8B-Instruct	45.03	27.38	9.64	20.64	3.85	21.31	NCSOFT
AYA-Expanse-8B	44.58	15.53	5.71	22.55	2.66	18.21	Cohere
Qwen2.5-1.5B-Instruct	28.13	20.69	8.64	18.51	3.78	15.95	Alibaba
Llama-3.2-1B-Instruct	7.88	10.50	4.77	10.43	2.80	7.28	Meta

搜集汇总

数据集介绍

构建方式

HRM8K数据集的构建融合了多种来源，旨在提供一个全面的韩国数学推理基准。该数据集包含8,011个实例，其中1,428个问题来自韩国的数学考试和竞赛，这些问题通过人工截图并使用GPT-4o API进行OCR处理，再由两名标注者进行交叉验证。其余6,583个问题则源自现有的英语数学基准（如GSM8K、MATH、NuminaMath和MMMLU），这些问题的翻译工作同样借助GPT-4o API完成，并经过人工质量检查。

特点

HRM8K数据集的显著特点在于其多样性和高质量。首先，数据集涵盖了从基础到高级的各类数学问题，确保了测试的全面性。其次，通过结合人工和自动化工具的翻译与验证过程，确保了问题的准确性和语言的流畅性。此外，数据集的划分（Korean School Math和Prior Sets）使得研究者可以针对不同来源的问题进行专门的研究和模型训练。

使用方法

HRM8K数据集适用于评估和提升模型在韩国数学推理任务中的表现。研究者可以通过加载数据集中的问题，使用各种机器学习模型进行训练和测试，以评估其在不同数学问题上的性能。数据集的Leaderboard部分提供了不同模型在各个子集上的表现，为研究者提供了参考和比较的基准。若希望将自己的模型加入Leaderboard，可以通过提供的联系方式与数据集维护者联系。

背景与挑战

背景概述

HRM8K（HAE-RAE Math 8K）是首个公开的韩语数学推理基准数据集，由8,011个实例组成。该数据集的创建旨在推动韩语数学问题的自动化解决研究，其来源包括从现有的英语基准（如GSM8K、MATH、NuminaMath、MMMLU）翻译的问题，以及从韩国数学考试和竞赛中精选的原创问题。HRM8K的发布标志着在多语言数学推理领域的重要进展，为研究人员提供了一个标准化的测试平台，以评估和改进数学推理模型的性能。

当前挑战

HRM8K数据集在构建过程中面临多项挑战。首先，翻译现有英语基准问题至韩语需要高精度的语言转换技术，以确保数学问题的准确性和逻辑一致性。其次，从韩国数学考试和竞赛中提取问题涉及复杂的OCR处理和人工校对，以确保数据的准确性和完整性。此外，HRM8K的多样性和复杂性要求模型具备高度的推理能力和语言理解能力，这对当前的AI技术提出了严峻的挑战。

常用场景

经典使用场景

HRM8K数据集在数学推理领域中具有经典的使用场景，主要用于评估和提升模型在韩语数学问题上的推理能力。通过包含从韩国数学考试和竞赛中提取的1,428个问题，以及从现有英语基准翻译的6,583个问题，HRM8K为研究人员提供了一个全面的资源，用于测试和改进模型在复杂数学问题上的表现。

实际应用

HRM8K数据集在实际应用中具有广泛的前景，特别是在教育科技领域。通过利用该数据集训练的模型，可以开发出更智能的辅导系统和考试评估工具，帮助学生和教师更有效地解决数学问题。此外，该数据集还可用于开发针对韩国市场的个性化学习应用。

衍生相关工作

HRM8K数据集的发布激发了大量相关研究工作，特别是在跨语言数学推理和模型评估方面。例如，基于HRM8K的基准测试，研究人员开发了多种改进的数学推理模型，如GPT-4o和Qwen2.5系列，这些模型在多个公开基准测试中表现优异，进一步推动了数学推理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集