m-ArenaHard|语言模型评估数据集|多语言处理数据集
收藏m-ArenaHard 数据集概述
数据集详情
概述
m-ArenaHard 数据集是一个多语言的大型语言模型(LLM)评估数据集。该数据集通过使用 Google Translate API v3 将原始的英语 LMarena(原 LMSYS)arena-hard-auto-v0.1 测试数据集的提示翻译成 22 种语言而创建。原始的英语提示由 Li et al. (2024) 创建,包含 500 个来自 Chatbot Arena 的挑战性用户查询。这些查询可用于执行自动 LLM 评判评估,这些评估与 Chatbot Arena 排名具有高度相关性。
语言支持
该数据集包含以下 23 种语言:
- 阿拉伯语 (ar)
- 中文 (zh)
- 捷克语 (cs)
- 荷兰语 (nl)
- 英语 (en)
- 法语 (fr)
- 德语 (de)
- 希腊语 (el)
- 希伯来语 (he)
- 印地语 (hi)
- 印度尼西亚语 (id)
- 意大利语 (it)
- 日语 (ja)
- 韩语 (ko)
- 波斯语 (fa)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 西班牙语 (es)
- 土耳其语 (tr)
- 乌克兰语 (uk)
- 越南语 (vi)
数据结构
每个语言子集的数据结构如下:
question_id
: 示例的唯一 IDcluster
: 示例的主题category
: 示例所属的原始数据集prompt
: 提示文本(问题或指令)
数据集大小
每个语言子集的测试集包含 500 个示例,具体大小如下:
- 阿拉伯语 (ar): 328741 字节
- 捷克语 (cs): 258801 字节
- 德语 (de): 276977 字节
- 希腊语 (el): 411090 字节
- 英语 (en): 249691 字节
- 西班牙语 (es): 274711 字节
- 波斯语 (fa): 342307 字节
- 法语 (fr): 287086 字节
- 希伯来语 (he): 298857 字节
- 印地语 (hi): 486279 字节
- 印度尼西亚语 (id): 263904 字节
- 意大利语 (it): 269604 字节
- 日语 (ja): 300804 字节
- 韩语 (ko): 278795 字节
- 荷兰语 (nl): 265040 字节
- 波兰语 (pl): 266885 字节
- 葡萄牙语 (pt): 266432 字节
- 罗马尼亚语 (ro): 271404 字节
- 俄语 (ru): 388651 字节
- 土耳其语 (tr): 269018 字节
- 乌克兰语 (uk): 374668 字节
- 越南语 (vi): 304066 字节
- 中文 (zh): 229345 字节
数据加载
使用 datasets
库加载数据集的示例如下:
python
from datasets import load_dataset
dataset = load_dataset("CohereForAI/m_ArenaHard", "en")
版权信息
该数据集根据 Apache 2.0 许可证发布,可用于任何学术或商业目的。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录