MixEval/MixEval|大型语言模型数据集|基准测试数据集
收藏MixEval 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 文本生成
- 文本检索
- 问答
- 语言: 英语
- 名称: MixEval
- 大小类别: 1K<n<10K
- 标签:
- 基准测试
- 大型语言模型评估
- 动态基准测试
- 多模态大型模型
- 机器学习
- 深度学习
配置详情
- MixEval:
- 数据文件:
- 自由形式:
data/mixeval-jsonl/mixeval/free-form.jsonl
- 多项选择:
data/mixeval-jsonl/mixeval/multiple-choice.jsonl
- 自由形式:
- 数据文件:
- MixEval_Hard:
- 数据文件:
- 自由形式:
data/mixeval-jsonl/mixeval-hard/free-form.jsonl
- 多项选择:
data/mixeval-jsonl/mixeval-hard/multiple-choice.jsonl
- 自由形式:
- 数据文件:
数据集更新
- 当前动态基准版本:
2024-06-01
数据集概述
- MixEval: 基于现成基准混合的动态基准,评估大型语言模型,具有高能力模型排名(与Chatbot Arena相关性为0.96),运行快速且成本低廉(仅为MMLU的6%),每月稳定更新查询以避免污染。
- MixEval-Hard: MixEval的困难版本,旨在增强基准区分强模型的能力。
使用方法
-
加载MixEval: python from datasets import load_dataset dataset = load_dataset("MixEval/MixEval", MixEval)
-
加载MixEval-Hard: python from datasets import load_dataset dataset = load_dataset("MixEval/MixEval", MixEval-Hard)
数据集优势
- 准确的模型排名
- 快速、廉价和可重复的执行
- 动态基准测试
- 全面和较少偏见的查询分布
- 公平的评分过程
有效性
- MixEval和MixEval-Hard在所有基准中与Arena Elo和Arena Elo (En)的相关性最高。
- MixEval提高了其主要基准分割与Arena Elo和Arena Elo (En)的相关性。
- MixEval优于基准级和均匀混合。
- MixEval有效地将真实世界用户查询映射到基于真实情况的基准。
引用
@article{ni2024mixeval, title={MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures}, author={Ni, Jinjie and Xue, Fuzhao and Yue, Xiang and Deng, Yuntian and Shah, Mahir and Jain, Kabir and Neubig, Graham and You, Yang}, journal={arXiv preprint arXiv:2406.06565}, year={2024} }
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录