CohereLabs/m-ArenaHard-v2.1
收藏Hugging Face2026-04-30 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/CohereLabs/m-ArenaHard-v2.1
下载链接
链接失效反馈官方服务:
资源简介:
m-ArenaHard-v2.1数据集是一个多语言LLM评估集,基于LMarena的arena-hard-auto-v2.0提示构建。它保留了v2.0的行模式,同时扩展了语言覆盖范围至67种语言。数据集包含每种语言的测试分割,每个分割有498个提示。数据集的目的是为多语言研究提供一个可用的、一致的基准,同时保持与原始Arena-Hard v2.0源数据的行对齐。数据集的结构包括question_id、category、subcategory、prompt和language等字段。
The m-ArenaHard-v2.1 dataset is a multilingual LLM evaluation set built from the LMarena arena-hard-auto-v2.0 prompts used in m-ArenaHard-v2.0. It keeps the public v2.0 row schema while expanding coverage to the 67 raw translation files produced for the [Tiny Aya](https://arxiv.org/abs/2603.11510) evaluation work. The dataset includes 67 languages, each with a test split containing 498 prompts. The dataset is designed to provide a usable and consistent benchmark for multilingual research while preserving row alignment with the original Arena-Hard v2.0 source. The dataset structure includes fields such as question_id, category, subcategory, prompt, and language.
提供机构:
CohereLabs
搜集汇总
数据集介绍

构建方式
m-ArenaHard-v2.1数据集是在LMarena的Arena-Hard v2.0提示语基础上构建的多语言大语言模型评估集。其核心构建方式是将原始的498条英文提示语通过机器翻译扩展至67种语言,并针对翻译过程中出现的代码保留错误、文本损坏、语言混杂及翻译伪影等质量问题进行了定向修复。对于部分英文源提示中存在的非英文或混杂语言问题,使用了规范的英文源文本进行覆盖,同时重建了一条因损坏而无法使用的数学提示,确保所有语言配置下的行对齐与数据一致性。最终,每个语言配置均包含一个包含498条测试样本的test划分。
特点
该数据集最显著的特点在于其广泛的多语言覆盖范围,横跨67种语言,涵盖从常见语种到低资源语言,为跨语言大模型评估提供了丰富的基准。其数据行结构与原始Arena-Hard v2.0保持一致,包含question_id、category、subcategory、prompt及language五个字段,便于研究者进行结果对比与迁移。同时,数据集注重翻译质量的审慎修复,特别关注代码、数据等结构化内容的完整性,确保自然语言文本被准确翻译而执行代码等关键信息保持不变,从而提高了多语言评估的可靠性与实用性。
使用方法
研究者可通过HuggingFace的datasets库便捷地加载该数据集。使用load_dataset('CohereLabs/m-ArenaHard-v2.1', 'es', split='test')即可加载西班牙语的测试集。如需同时评估全部67种语言,可利用get_dataset_config_names获取所有配置名称,再通过concatenate_datasets函数将所有语言的数据集合并,从而高效地进行多语言大语言模型的性能对比分析。该数据集特别适用于评测模型在多种语言条件下的指令遵循、代码生成及复杂推理能力。
背景与挑战
背景概述
m-ArenaHard-v2.1是一个面向多语言大语言模型评估的基准数据集,由Cohere Labs基于LMarena的arena-hard-auto-v2.0提示集构建,并于2025年发布。该数据集延续了Tiny Aya项目在跨语言评估方面的探索,核心研究问题在于如何系统性地衡量大语言模型在67种语言指令遵循任务上的表现,涵盖从英语到祖鲁语等广泛语种。作为多语言评估领域的代表性资源,m-ArenaHard-v2.1为研究者提供了统一且可靠的测试平台,推动了多语言自然语言处理与模型鲁棒性研究的发展。
当前挑战
该数据集面临的核心挑战源于多语言评估的复杂性与数据质量的双重困境。一方面,当前大语言模型在低资源语言上的表现普遍弱于高资源语言,跨语种的公平性评估成为领域难题。另一方面,构建过程中需解决机器翻译引入的代码结构破坏、混合语言噪声及翻译伪影等问题,例如SQL语句或代码片段被错误改写,或英文原提示中混入非目标语言干扰。此外,原版Arena-Hard v2.0提示集本身存在不一致性,需通过人工审核与修复来确保数据对齐与跨语言一致性,这对数据集的可复用性提出了更高要求。
常用场景
经典使用场景
m-ArenaHard-v2.1数据集专为多语言大语言模型的评估而设计,其经典使用场景是作为跨语言指令跟随能力的基准测试。研究人员通过向不同语言版本的大语言模型提供覆盖67种语言的498个精心设计的提示,系统性地评估模型在数学推理、代码生成、逻辑分析等复杂任务上的表现。该数据集特别适用于对比不同模型在全球语言环境中的性能差异,以及在机器翻译后提示质量的一致性检验。
衍生相关工作
该数据集衍生出的相关工作包括多语言提示集的构建方法论研究和机器翻译修复技术的创新。例如,研究者通过分析m-ArenaHard-v2.1中的修复策略,提出了针对代码和数据密集任务的语言感知翻译验证框架,这些工作激发了对跨语言评估中数据一致性维护的深入探讨。此外,该数据集还促进了多语言大模型排行榜的建立,并为后续如Tiny Aya等模型的多语言性能评估提供了重要参考基准。
数据集最近研究
最新研究方向
m-ArenaHard-v2.1数据集的最新研究方向聚焦于推动多语言大语言模型评估的标准化与鲁棒性,尤其是在低资源语言和代码密集型任务上的测评能力。该数据集通过扩展至67种语言,并针对机器翻译中的代码语法破坏、语言混杂及源语料污染等缺陷进行系统性修复,显著提升了跨语言测评的一致性和可靠性。这一工作在Aya等前沿多语言模型评测中具有关键意义,为揭露和修正翻译偏差、确保任务输入完整性提供了基准参考,进而促进了多语言AI系统在真实世界应用中的公平性与可迁移性。
以上内容由遇见数据集搜集并总结生成



