five

m-ArenaHard|语言模型评估数据集|多语言处理数据集

收藏
huggingface2024-10-24 更新2024-12-12 收录
语言模型评估
多语言处理
下载链接:
https://huggingface.co/datasets/CohereForAI/m-ArenaHard
下载链接
链接失效反馈
资源简介:
m-ArenaHard数据集是一个多语言的大型语言模型(LLM)评估集。该数据集通过使用Google Translate API v3将原本仅限英语的LMarena(前身为LMSYS)arena-hard-auto-v0.1测试数据集的提示翻译成22种语言而创建。原始的英语提示由Li等人(2024年)创建,包含从Chatbot Arena收集的500个具有挑战性的用户查询。该数据集总共包含23种语言,每种语言有500个示例。数据集的字段包括'question_id'、'cluster'、'category'和'prompt'。该数据集由Cohere For AI发布,并根据Apache 2.0许可证进行许可。
提供机构:
Cohere For AI
创建时间:
2024-10-23
原始信息汇总

m-ArenaHard 数据集概述

数据集详情

概述

m-ArenaHard 数据集是一个多语言的大型语言模型(LLM)评估数据集。该数据集通过使用 Google Translate API v3 将原始的英语 LMarena(原 LMSYS)arena-hard-auto-v0.1 测试数据集的提示翻译成 22 种语言而创建。原始的英语提示由 Li et al. (2024) 创建,包含 500 个来自 Chatbot Arena 的挑战性用户查询。这些查询可用于执行自动 LLM 评判评估,这些评估与 Chatbot Arena 排名具有高度相关性。

语言支持

该数据集包含以下 23 种语言:

  • 阿拉伯语 (ar)
  • 中文 (zh)
  • 捷克语 (cs)
  • 荷兰语 (nl)
  • 英语 (en)
  • 法语 (fr)
  • 德语 (de)
  • 希腊语 (el)
  • 希伯来语 (he)
  • 印地语 (hi)
  • 印度尼西亚语 (id)
  • 意大利语 (it)
  • 日语 (ja)
  • 韩语 (ko)
  • 波斯语 (fa)
  • 波兰语 (pl)
  • 葡萄牙语 (pt)
  • 罗马尼亚语 (ro)
  • 俄语 (ru)
  • 西班牙语 (es)
  • 土耳其语 (tr)
  • 乌克兰语 (uk)
  • 越南语 (vi)

数据结构

每个语言子集的数据结构如下:

  • question_id: 示例的唯一 ID
  • cluster: 示例的主题
  • category: 示例所属的原始数据集
  • prompt: 提示文本(问题或指令)

数据集大小

每个语言子集的测试集包含 500 个示例,具体大小如下:

  • 阿拉伯语 (ar): 328741 字节
  • 捷克语 (cs): 258801 字节
  • 德语 (de): 276977 字节
  • 希腊语 (el): 411090 字节
  • 英语 (en): 249691 字节
  • 西班牙语 (es): 274711 字节
  • 波斯语 (fa): 342307 字节
  • 法语 (fr): 287086 字节
  • 希伯来语 (he): 298857 字节
  • 印地语 (hi): 486279 字节
  • 印度尼西亚语 (id): 263904 字节
  • 意大利语 (it): 269604 字节
  • 日语 (ja): 300804 字节
  • 韩语 (ko): 278795 字节
  • 荷兰语 (nl): 265040 字节
  • 波兰语 (pl): 266885 字节
  • 葡萄牙语 (pt): 266432 字节
  • 罗马尼亚语 (ro): 271404 字节
  • 俄语 (ru): 388651 字节
  • 土耳其语 (tr): 269018 字节
  • 乌克兰语 (uk): 374668 字节
  • 越南语 (vi): 304066 字节
  • 中文 (zh): 229345 字节

数据加载

使用 datasets 库加载数据集的示例如下: python from datasets import load_dataset

dataset = load_dataset("CohereForAI/m_ArenaHard", "en")

版权信息

该数据集根据 Apache 2.0 许可证发布,可用于任何学术或商业目的。

AI搜集汇总
数据集介绍
main_image_url
构建方式
m-ArenaHard数据集是一个多语言大语言模型评估集,其构建基于原始的英文LMarena(前身为LMSYS)arena-hard-auto-v0.1测试数据集。通过Google Translate API v3,将原始的500个具有挑战性的用户查询翻译成22种语言,涵盖了阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。这一过程确保了数据集的多语言覆盖性和广泛适用性。
使用方法
使用m-ArenaHard数据集时,首先需要安装Datasets库,并通过指定语言代码加载相应的子集。例如,加载英语子集可以使用代码`load_dataset("CohereForAI/m_ArenaHard", "en")`。用户可以根据需要加载特定语言的子集,或者加载整个数据集以进行全面的多语言评估。数据集的结构清晰,每个实例包含question_id、cluster、category和prompt字段,便于用户直接应用于模型评估和性能分析。
背景与挑战
背景概述
m-ArenaHard数据集是一个多语言大语言模型(LLM)评估集,由Cohere For AI团队创建。该数据集基于Li等人(2024)开发的英文LMarena(原LMSYS)arena-hard-auto-v0.1测试集,通过Google Translate API v3将其翻译为22种语言。原始英文提示包含500个来自Chatbot Arena的具有挑战性的用户查询,旨在用于自动LLM评估,其评估结果与Chatbot Arena排名具有高度相关性。该数据集的发布标志着多语言LLM评估领域的重要进展,为跨语言模型性能的比较提供了标准化工具。
当前挑战
m-ArenaHard数据集在构建和应用过程中面临多重挑战。首先,翻译过程中可能引入的语言偏差和文化差异会影响提示的准确性和一致性,进而影响模型评估的公平性。其次,不同语言的语法结构和表达习惯差异显著,如何确保翻译后的提示在语义和语境上与原文保持一致,是一个复杂的技术难题。此外,数据集的规模相对较小,可能无法全面覆盖所有语言和领域的复杂场景,限制了其在广泛场景下的适用性。最后,自动评估与人工评估之间的相关性仍需进一步验证,以确保评估结果的可靠性和有效性。
常用场景
经典使用场景
m-ArenaHard数据集在多语言大语言模型(LLM)评估领域具有重要应用。该数据集通过将原本仅限英文的LMarena测试集翻译为22种语言,为跨语言模型性能评估提供了丰富的测试场景。研究人员通常利用该数据集进行自动化的LLM评判,评估模型在不同语言环境下的表现,尤其是在处理复杂用户查询时的能力。
解决学术问题
m-ArenaHard数据集解决了多语言大语言模型评估中的关键问题,即缺乏高质量、多样化的跨语言测试数据。通过提供23种语言的500个复杂用户查询,该数据集为研究者提供了标准化的评估工具,能够有效衡量模型在不同语言和文化背景下的表现。其高相关性验证了自动评判与Chatbot Arena排名的一致性,为多语言模型的研究和优化提供了重要支持。
实际应用
在实际应用中,m-ArenaHard数据集被广泛用于多语言聊天机器人和智能助手的性能测试。企业可以利用该数据集评估其产品在不同语言市场中的表现,优化模型以提升用户体验。此外,该数据集还为多语言教育工具、翻译系统和跨文化交流平台提供了可靠的基准测试工具,帮助开发者识别和解决模型在特定语言中的性能瓶颈。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言大语言模型(LLM)的评估正逐渐成为研究热点。m-ArenaHard数据集作为多语言LLM评估的重要资源,涵盖了23种语言的500个具有挑战性的用户查询,为跨语言模型性能的全面评估提供了坚实基础。当前研究聚焦于如何利用该数据集进行自动化的LLM评判,特别是在不同语言间的表现一致性及其与Chatbot Arena排名的相关性。随着全球化进程的加速,多语言模型的优化与评估需求日益增长,m-ArenaHard数据集的应用不仅推动了多语言模型的技术进步,也为跨文化交流和全球化服务提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录