CohereLabs/m-ArenaHard-v2.0
收藏Hugging Face2026-05-05 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/CohereLabs/m-ArenaHard-v2.0
下载链接
链接失效反馈官方服务:
资源简介:
m-ArenaHard-v2.0数据集是一个多语言LLM评估集,基于LMarena的arena-hard-auto-v2.0测试数据集构建。原始数据集中包含750个提示,经过过滤后保留了498个英文提示,并使用先进的翻译模型将这些提示翻译成22种语言,最终形成一个包含11,454个多语言提示的测试集。数据集支持23种语言,包括阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。每个数据实例包含question_id、category、subcategory、prompt和language等字段。
The m-ArenaHard-v2.0 dataset is a multilingual LLM evaluation set built on the LMarena arena-hard-auto-v2.0 test dataset. The original dataset containing 750 prompts was filtered to 498 English-only prompts, which were then translated into 22 languages using a state-of-the-art translation model, resulting in a total test set of 11,454 multilingual prompts. The dataset includes 23 languages: Arabic, Chinese, Czech, Dutch, English, French, German, Greek, Hebrew, Hindi, Indonesian, Italian, Japanese, Korean, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Turkish, Ukrainian, and Vietnamese. Each data instance contains fields such as question_id, category, subcategory, prompt, and language.
提供机构:
CohereLabs
搜集汇总
数据集介绍

构建方式
m-ArenaHard-v2.0数据集以LMarena发布的Arena-Hard v2.0测试集为蓝本,利用papluca/xlm-roberta-base-language-detection模型对原始750条提示进行语言筛选,仅保留英文提示,最终获得498条高质量样本。在此基础上,借助内部研发的最先进翻译模型,将这些英文提示精准翻译至阿拉伯语、中文、捷克语等22种语言,构建出包含11454条多语言提示的综合性测试集。每个语言子集均保持与原始数据相同的字段结构,确保了跨语言对齐的一致性。
特点
该数据集涵盖23种语言,每种子语言均包含498条提示,总量达11454条,为多语言大语言模型评估提供了丰富资源。每条数据包含question_id、category、subcategory、prompt和language五个字段,其中question_id跨语言保持一致,便于进行同源提示的跨语言对比分析。数据集标注了精细的类别与子类别信息,覆盖编码、推理等多种任务类型,特别适合用于评测模型在多语言场景下的指令遵循与生成能力。
使用方法
使用HuggingFace Datasets库可便捷加载该数据集,通过指定语言代码即可获取对应子集,例如load_dataset('CohereLabs/m-ArenaHard-v2.0', 'en')加载英文部分。如需加载全部语言数据,可配合get_dataset_config_names和concatenate_datasets函数进行合并。数据仅包含test划分,可直接用于模型评测,其多语言对齐特性支持跨语言性能对比分析。数据集采用Apache 2.0许可证,允许学术与商业用途的自由使用。
背景与挑战
背景概述
在大规模语言模型(LLM)评估领域,多语言能力的测评长期面临基准缺失的困境。m-ArenaHard-v2.0数据集由Cohere Labs研究团队于2025年创建,主要研究人员包括Ammar Khairi、Daniel D'souza等人,旨在填补现有评估体系对非英语语言关注不足的空白。该数据集基于LMarena的Arena-Hard v2.0测试集(原含750条英语提示),经语言过滤后保留498条,再通过内部先进翻译模型扩展至22种语言,最终形成包含11,454条多语言提示的评测基准。其核心研究问题在于探索多语言场景下LLM推理计算量扩展的收益,为多语言LLM的公平评估提供了规范化框架,对推动多语言自然语言处理研究具有重要影响力。
当前挑战
m-ArenaHard-v2.0所解决的领域问题在于多语言LLM评估中缺乏跨语言一致性基准的挑战,现有数据集往往以英语为中心,难以有效衡量模型在不同语言上的真实表现。构建过程中面临的挑战尤为突出:首先,源数据Arena-Hard v2.0本身存在质量不均问题,包含编码损坏、混合语言及翻译残留等瑕疵;其次,将英语提示高质量翻译至22种差异显著的语言,需兼顾语义保真与代码片段保留等细节,对翻译模型的能力提出了严峻考验;最后,确保跨语言版本与原始数据集的行对齐,同时维护各语言子集间评估标准的可比性,是一项复杂的数据工程任务。
常用场景
经典使用场景
在自然语言处理领域,m-ArenaHard-v2.0数据集因其覆盖23种语言的多模态评估特性,成为衡量大语言模型(LLM)跨语言推理与生成能力的标杆工具。经典使用场景聚焦于对比不同模型在多元语言环境下的指令遵循质量,尤其是针对复杂任务如代码生成、逻辑推理与文化适配性测试。研究者通常基于该数据集的498个高质量英文提示及其多语言译本,构建统一的评估框架,通过计算模型输出与人类偏好的对齐程度,量化其在低资源语言场景中的表现劣势。此数据集填补了非英语语言上LLM评测工具的空白,为多语言模型的能力泛化提供了标准化基准。
实际应用
在实际应用场景中,m-ArenaHard-v2.0被广泛部署于多语言对话系统与跨文化内容生成工具的能力测试周期。企业级AI产品如客服机器人、翻译引擎或教育平台利用该数据集进行多语上线前的基准测试,确保模型在阿拉伯语、波斯语等非英语场景下仍能维持高准确率和低错误率。数据处理流程的低门槛加载模式支持快速集成,从而加速全球化产品的迭代验证。该数据集还赋能低资源语言的专用模型微调,通过对照测试识别特定语言的表征薄弱点,进而指导定向优化,提升跨区域用户交互的体验一致性与语义纯净度。
衍生相关工作
衍生自m-ArenaHard-v2.0的经典工作主要包括多语言模型推理效率与计算资源配置的突破性研究。例如,CohereLabs发表的论文《When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs》利用该数据集揭示了增加推理计算量对多语言性能的差异化影响,催生了按语言自适应分配计算资源的调优策略。此外,后续工作基于该数据集的提示分类架构,发展了面向低资源语言的逆向翻译质量检测算法以及多语种隐式偏见归因分析工具。这些衍生成果共同拓展了多语言模型公平性评估的学术疆域,为构建更包容的语言技术生态提供了系统化方法论支撑。
以上内容由遇见数据集搜集并总结生成



