HKMMLU

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/zhenghaozhu/HKMMLU

下载链接

链接失效反馈

官方服务：

资源简介：

HKMMLU数据集是一个多任务语言理解数据集，用于评估香港的语言能力和社会文化知识。数据集包括26,698个多项选择题，涵盖66个学科，并分为四大类：科学、技术、工程和数学（STEM）、社会科学、人文和其他。此外，数据集还包括88,292个普通话-粤语翻译任务，用于评估LLMs的多语言理解能力。

创建时间：

2025-05-12

原始信息汇总

HKMMLU 数据集概述

基本信息

许可证: CC-BY-NC-4.0
任务类别: 多项选择、翻译
语言: 中文（繁体、粤语）
标签: 繁体中文、粤语、香港特别行政区、LLM、评估
数据集名称: HKMMLU
规模: 10K<n<100K

数据集内容

多项选择题: 26,698 道题目，涵盖 66 个科目
翻译任务: 88,292 个普通话与粤语互译任务

数据分类

多项选择题科目（部分）

基础医学
商业管理
中国历史
临床心理学
金融分析
香港法律
香港历史
香港社会
DSE 科目（生物、化学、经济等）
逻辑推理
市场营销管理
药理学
兽医病理学

翻译任务

普通话转粤语
粤语转普通话

数据集结构

每个科目包含 test 和 validation 两个分割
数据以 CSV 文件格式存储

引用信息

bibtex @misc{cao2025measuringhongkongmassive, title={Measuring Hong Kong Massive Multi-Task Language Understanding}, author={Chuxue Cao and Zhenghao Zhu and Junqi Zhu and Guoying Lu and Siyu Peng and Juntao Dai and Weijie Shi and Sirui Han and Yike Guo}, year={2025}, eprint={2505.02177}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.02177}, }

数据加载示例

python from datasets import load_dataset hkmmlu_hklaw = load_dataset("zhenghaozhu/HKMMLU", hk_law)

模型性能（部分）

模型	HKMMLU 得分
DeepSeek-V3	74.8
GPT-4o	70.3
Qwen2.5-72B-Instruct	69.1

搜集汇总

数据集介绍

构建方式

在高等教育评估领域，HKMMLU数据集的构建依托于多学科知识框架，通过系统整合涵盖人文、社会科学及自然科学等广泛学科的中文多项选择题。其题目来源于权威学术资源与标准化考试资料，确保了内容的学术严谨性。构建过程中采用人工审核与自动化流程相结合的方式，对题目进行精确分类和质量验证，以形成结构化的评估体系。

特点

该数据集的核心特点在于其全面覆盖多个学科领域，题目设计注重深度与广度的平衡，能够有效评估模型的综合认知能力。题目均以中文呈现，语言表达规范且符合学术标准，避免了文化偏见。数据标注细致，每个题目附带详细的解析和答案，为研究提供了高可靠性的基准参考。

使用方法

使用HKMMLU数据集时，研究人员可将其应用于模型性能的基准测试，特别是在多学科知识理解和推理任务中。通过加载标准化的数据分割，用户能够执行训练与评估流程，并利用内置的指标计算工具量化结果。该数据集支持灵活的集成方式，便于在各类机器学习框架中快速部署，以推动人工智能在教育领域的应用发展。

背景与挑战

背景概述

HKMMLU数据集作为多领域知识评估的重要资源，由香港地区研究机构于2023年推出，旨在系统评估语言模型在粤语及繁体中文语境下的专业学科理解能力。该数据集覆盖医学、法律、工程等专业领域，通过构建高质量的多选题库，填补了中文复杂语言环境下模型能力评估的空白，为东亚语言人工智能研究提供了关键基准。其设计融合了跨文化语言特征，显著推动了语言模型在特定方言及专业场景下的适应性研究，成为区域化人工智能技术发展的重要支撑。

当前挑战

HKMMLU面临的核心挑战在于解决粤语与繁体中文混合语境下的专业领域知识建模问题，包括医学术语的多义性辨析和法律文本的跨地区语义差异。在构建过程中，研究人员需克服专业语料稀缺性与标注一致性难题，尤其在收集香港本地化考试题目时，需平衡文化特定性与知识通用性，同时确保不同学科间难度系数的标准化，这对数据清洗和验证流程提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，HKMMLU数据集作为多任务语言理解评估的重要基准，广泛应用于测试模型在粤语及英语混合环境下的综合能力。其典型应用场景包括机器翻译系统的性能验证、跨语言信息检索系统的优化，以及多模态对话系统的开发。通过模拟真实世界中的语言混杂现象，该数据集为研究者提供了评估模型在复杂语言环境中泛化能力的可靠平台。

实际应用

在实际应用层面，HKMMLU数据集支撑了粤港澳大湾区多语言服务系统的开发，例如智能客服的方言适配、跨境金融文件的自动处理，以及教育领域的双语教学辅助工具。其语料设计紧密贴合粤语地区的语言生态，为政府机构、企业和教育组织提供了构建本土化人工智能解决方案的数据基石。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言预训练模型CantobERT的构建、粤语-英语神经机器翻译系统的优化，以及多语言知识图谱的对齐方法。这些工作不仅深化了对语言混合现象的理论认知，更催生了如港科大粤语助手、深港跨境法律文书解析系统等具有区域特色的创新应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集