CohereForAI/m-ArenaHard

Name: CohereForAI/m-ArenaHard
Creator: CohereForAI
Published: 2025-03-03 04:31:33
License: 暂无描述

Hugging Face2025-03-03 更新2025-04-08 收录

下载链接：

https://hf-mirror.com/datasets/CohereForAI/m-ArenaHard

下载链接

链接失效反馈

官方服务：

资源简介：

m-ArenaHard数据集是一个多语言的大型语言模型评估集。该数据集通过使用谷歌翻译API v3将原本只有英语的LMarena（之前称为LMSYS）arena-hard-auto-v0.1测试数据集中的提示翻译成22种语言而创建。原始的英文提示由Li等人于2024年创建，包含来自Chatbot Arena的500个具有挑战性的用户查询。作者展示了这些查询可以用于自动进行大型语言模型评判，其结果与Chatbot Arena排名高度相关。该数据集包含23种语言：阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。

The m-ArenaHard dataset is a multilingual LLM evaluation set. This dataset was created by translating the prompts from the originally English-only LMarena (formerly LMSYS) arena-hard-auto-v0.1 test dataset using Google Translate API v3 to 22 languages. The original English-only prompts were created by Li et al. (2024) and consist of 500 challenging user queries sourced from Chatbot Arena. The authors show that these can be used to perform automatic LLM judge evaluations, which exhibit a high correlation with Chatbot Arena rankings. The 23 languages included in this dataset are Arabic, Chinese, Czech, Dutch, English, French, German, Greek, Hebrew, Hindi, Indonesian, Italian, Japanese, Korean, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Turkish, Ukrainian, and Vietnamese.

提供机构：

CohereForAI

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言评估数据集的构建对于推动大语言模型的全球化应用至关重要。m-ArenaHard数据集的构建源于对原有英文评估基准的扩展，其核心方法是将LMarena（原LMSYS）的arena-hard-auto-v0.1测试集中的500个具有挑战性的用户查询，通过Google Translate API v3精准翻译为22种语言。这一过程不仅保留了原始查询的语义复杂性和评估意图，还确保了跨语言版本在结构和内容上的一致性，从而为多语言模型的性能评估提供了标准化且可比较的测试环境。

特点

该数据集在跨语言模型评估领域展现出鲜明的特色，其覆盖了包括阿拉伯语、中文、法语、德语等在内的23种语言，每种语言均包含500个测试样本，构成了一个规模均衡的多语言评估矩阵。每个样本均包含独特的question_id、主题cluster、来源category以及核心的prompt文本，结构清晰且字段统一。这些prompt源自真实的Chatbot Arena用户对话，经过精心筛选，具有较高的复杂性和判别性，能够有效检验模型在多样化语言和文化语境下的理解与生成能力。

使用方法

为有效利用该数据集进行模型评估，研究者需通过Hugging Face的datasets库进行加载。具体操作时，可通过指定语言代码参数（如'en'代表英语）来加载特定语言的子集，或通过省略参数加载整个多语言数据集。加载后的数据可直接用于自动化评估流程，例如将prompt输入待测模型，收集其生成结果，并借助自动化评判机制或人工评估来量化模型性能。该数据集专为测试阶段设计，适用于衡量大语言模型在多语言场景下的回答质量、相关性及文化适应性。

背景与挑战

背景概述

在大型语言模型（LLM）评估领域，多语言能力的系统性评测一直是研究的前沿课题。CohereForAI/m-ArenaHard数据集由Cohere Labs于2024年发布，其核心研究问题在于如何构建一个涵盖多种语言的高质量、高难度的自动评估基准，以衡量LLM在复杂、真实用户查询下的跨语言理解与生成能力。该数据集基于Li等人（2024）创建的英文LMarena-hard测试集，通过Google Translate API v3将其翻译为包括中文、阿拉伯语、印地语等在内的23种语言，每种语言包含500个挑战性提示。这一工作显著推动了多语言LLM评估的标准化进程，为模型在全球化应用场景中的性能比较提供了关键工具。

当前挑战

该数据集旨在解决多语言LLM评估中模型在复杂、开放式问题上的性能评测挑战，其核心难点在于确保翻译后提示在不同语言中保持语义一致性与文化适应性，避免因机械翻译引入的偏差影响评估的公平性。在构建过程中，面临的挑战包括：如何从海量的Chatbot Arena用户交互中筛选出具有代表性和高难度的原始英文查询；以及如何通过自动化翻译流程保证23种语言版本的质量可控，同时处理不同语言在语法结构、惯用表达和文化背景上的巨大差异，确保评估结果的可信度与泛化能力。

常用场景

经典使用场景

在自然语言处理领域，多语言大语言模型的评估一直是研究热点。m-ArenaHard数据集作为多语言LLM评估集，其经典使用场景在于为研究者提供跨语言、高难度的自动评估基准。通过涵盖23种语言的500个挑战性用户查询，该数据集能够系统性地测试模型在不同语言和文化背景下的推理、理解和生成能力，尤其适用于对比分析多语言模型与单语言模型在复杂任务上的性能差异。

实际应用

在实际应用层面，m-ArenaHard数据集为开发全球化的智能对话系统和内容生成工具提供了关键评估工具。企业可利用该数据集测试其多语言AI助手在客服、教育、娱乐等场景中处理复杂、开放式问题的稳健性。例如，评估模型在阿拉伯语、中文或日语等不同语言中理解用户意图的准确性，有助于优化产品本地化策略，提升跨文化用户体验，确保AI服务在全球市场的可靠性与包容性。

衍生相关工作

围绕m-ArenaHard数据集，已衍生出多项经典研究工作。例如，其基础论文《Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier》系统阐述了多语言评估框架的构建理念。后续研究常将该数据集与MMLU、BIG-Bench等多语言基准结合，用于训练或评测如Aya、BLOOM等开源多语言模型。这些工作不仅验证了自动评估与人工排名的高相关性，还促进了跨语言提示工程、少样本学习等技术的创新探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集