hle-multilingual
收藏Hugging Face2026-02-24 更新2026-02-25 收录
下载链接:
https://huggingface.co/datasets/ellamind/hle-multilingual
下载链接
链接失效反馈官方服务:
资源简介:
HLE Multilingual 是多语言翻译的 HLE(Humanity's Last Exam)数据集,这是一个专家级的问答基准,涵盖数学、科学、人文和工程等领域的问题,旨在挑战领域专家。数据集包含 2,158 个纯文本问题(原数据集共 2,500 个问题),覆盖捷克语、丹麦语、德语、芬兰语、法语、意大利语、荷兰语、波兰语和西班牙语等多种语言。每个问题均使用 Gemini 3.1 Pro 进行翻译,并针对科学内容进行了优化,包括保留数学公式、化学命名法等专业内容。数据集字段包括问题文本、正确答案、错误答案、原始 ID、答案类型、类别、翻译信心等。适用于问答和文本生成任务。
提供机构:
ellamind
创建时间:
2026-02-24
搜集汇总
数据集介绍
构建方式
在跨语言知识评估领域,HLE Multilingual数据集的构建采用了精密的翻译策略。该数据集源自英文原版HLE基准测试,通过Gemini 3.1 Pro模型进行高质量多语言转换,并特别针对科学内容优化了翻译提示。构建过程中,自然语言叙述部分被流畅地转化为目标语言,同时严格保留了数学公式、化学命名等专业符号的原始形态。对于选择题型,系统会提取并分别翻译正确答案与干扰项;而精确匹配类问题则额外生成目标语言的干扰选项。值得注意的是,涉及图像内容的样本已被排除,且翻译过程引入了置信度评估与质量标记机制,确保了跨语言知识表达的准确性与一致性。
特点
该数据集的核心特征体现在其多语言覆盖与专业深度上。它囊括了捷克语、丹麦语、德语、芬兰语、法语、意大利语、荷兰语、波兰语和西班牙语九种语言版本,其中德语样本量尤为突出。每个样本均承载着数学、物理、生物医学、化学等学科的高阶知识问题,旨在挑战领域专家的认知边界。数据集结构设计严谨,不仅包含翻译后的问题文本与答案,还保留了原始分类标识、细粒度学科标签以及详细的翻译元数据,如置信度评分与格式保留状态。这种设计使得数据集既能评估模型的多语言理解能力,又能深入探究其在特定科学领域的推理水平。
使用方法
研究人员可通过Hugging Face的datasets库便捷地加载与使用该数据集。典型的使用方式是调用load_dataset函数,指定数据集名称、目标语言配置(如“deu”代表德语)并加载测试集。加载后,用户可根据answer_type字段轻松筛选出选择题或精确匹配题,进行针对性的模型评估与分析。该数据集主要服务于多语言问答与文本生成任务的基准测试,尤其适用于评估大型语言模型在跨语言科学知识理解与推理方面的性能。通过对比模型在不同语言和学科类别上的表现,研究者能够获得关于模型泛化能力与知识迁移效力的深刻洞见。
背景与挑战
背景概述
在人工智能评测领域,构建能够全面评估模型高级认知与跨学科知识理解能力的基准测试,已成为推动通用人工智能发展的关键环节。HLE Multilingual数据集应运而生,其源自Center for AI Safety、Scale AI及HLE贡献者联盟于2026年发布的HLE(Humanity's Last Exam)基准,旨在通过涵盖数学、科学、人文与工程等领域的专家级问答,深度挑战领域专家乃至先进AI系统的知识边界。该多语言版本由ellamind团队主导构建,将原始英文测试集的文本问题精准翻译为捷克语、丹麦语、德语、芬兰语、法语、意大利语、荷兰语、波兰语及西班牙语等九种语言,不仅扩展了评测的语种覆盖,也为探究大语言模型在多语言场景下的知识迁移与推理能力提供了重要资源。
当前挑战
该数据集致力于解决多语言环境下专家级问答任务的评估挑战,其核心在于如何确保高度专业化、富含学科术语与符号(如LaTeX公式、化学命名)的内容在跨语言转换中保持语义精确与格式一致。构建过程中面临多重困难:一是翻译过程需平衡自然语言流畅性与专业内容保真度,尤其需处理数学表达式、科学符号等不可译元素的保留问题;二是为多项选择题与精确匹配题生成高质量的目标语言干扰项,要求模型具备深度的领域知识以制造合理迷惑选项;三是翻译质量的自评估与标注,依赖模型自报告的置信度与问题标记机制,其可靠性尚需人工校验进一步验证。此外,原始数据集中约14%的含图像样例因无法翻译而被排除,可能影响部分学科问题的完整性与评测覆盖面。
常用场景
经典使用场景
在跨语言人工智能评估领域,HLE Multilingual数据集被广泛用于测试多语言大型语言模型在专家级学术问答任务上的性能。该数据集覆盖数学、科学、人文和工程等多个学科,其多语言特性使得研究者能够系统评估模型在不同语言环境下的知识理解和推理能力,尤其适用于对比分析模型在英语与其他欧洲语言之间的表现差异。
解决学术问题
该数据集有效解决了多语言场景下专家级知识评估标准缺失的学术难题。通过提供高质量的多语言平行语料,它使研究者能够量化语言迁移对模型专业领域性能的影响,为跨语言泛化能力研究提供了基准。其结构化翻译策略保留了专业符号与术语的完整性,确保了评估结果在科学严谨性上的可信度。
衍生相关工作
围绕该数据集衍生的经典工作包括多语言专家级问答模型的对比研究,如分析德语与西班牙语版本上模型性能的差异性。此外,研究者基于其翻译置信度标注开发了数据质量过滤框架,并利用其学科分类体系探索了跨语言领域适应方法,推动了多语言专业评估技术的发展。
以上内容由遇见数据集搜集并总结生成



