five

openeurollm/ArenaHard-EU-v0

收藏
Hugging Face2025-11-10 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/openeurollm/ArenaHard-EU-v0
下载链接
链接失效反馈
官方服务:
资源简介:
ArenaHard-EU是一个全面的多语言基准数据集,用于评估大型语言模型(LLMs)在35种欧洲和邻近语言上的表现。该数据集通过机器翻译扩展了原始的Arena-Hard基准,实现了对多语言LLMs的鲁棒评估。它涵盖了所有官方欧盟语言以及邻近语言的辅官方语言、候选成员国语言和斯堪的纳维亚语言,为每种语言提供了500多个涵盖不同主题和复杂性的指令。数据集保持了原始Arena-Hard格式,便于与现有评估流程集成。此外,数据集支持使用OpenJury框架进行模型评估,并通过Apache 2.0许可证发布,允许学术和商业使用。

ArenaHard-EU is a comprehensive multilingual benchmark for evaluating Large Language Models (LLMs) across 35 European and neighboring languages. This dataset extends the original Arena-Hard benchmark through machine translation, enabling robust multilingual LLM evaluation. It covers all official EU languages as well as co-official, candidate member, and Scandinavian languages, providing over 500 challenging prompts per language on diverse topics and complexities. The dataset maintains the original Arena-Hard format for easy integration with existing evaluation pipelines. Additionally, it supports model evaluation using the OpenJury framework and is released under the Apache 2.0 License for academic and commercial use.
提供机构:
openeurollm
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作