five

MixEval/MixEval|大型语言模型数据集|基准测试数据集

收藏
hugging_face2024-06-15 更新2024-06-15 收录
大型语言模型
基准测试
下载链接:
https://hf-mirror.com/datasets/MixEval/MixEval
下载链接
链接失效反馈
资源简介:
MixEval是一个基于真实世界用户查询的动态基准测试,旨在通过结合现有基准测试中的查询来评估大型语言模型(LLMs)。它包括两个版本:MixEval和MixEval-Hard,后者是前者的困难版本,旨在更好地区分强模型。数据集包含自由形式和多项选择题两种类型,并定期更新以避免数据污染。MixEval的优势包括准确的模型排名、快速且廉价的执行、动态基准测试、全面且偏少的查询分布以及公平的评分机制。
提供机构:
MixEval
原始信息汇总

MixEval 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 文本生成
    • 文本检索
    • 问答
  • 语言: 英语
  • 名称: MixEval
  • 大小类别: 1K<n<10K
  • 标签:
    • 基准测试
    • 大型语言模型评估
    • 动态基准测试
    • 多模态大型模型
    • 机器学习
    • 深度学习

配置详情

  • MixEval:
    • 数据文件:
      • 自由形式: data/mixeval-jsonl/mixeval/free-form.jsonl
      • 多项选择: data/mixeval-jsonl/mixeval/multiple-choice.jsonl
  • MixEval_Hard:
    • 数据文件:
      • 自由形式: data/mixeval-jsonl/mixeval-hard/free-form.jsonl
      • 多项选择: data/mixeval-jsonl/mixeval-hard/multiple-choice.jsonl

数据集更新

  • 当前动态基准版本: 2024-06-01

数据集概述

  • MixEval: 基于现成基准混合的动态基准,评估大型语言模型,具有高能力模型排名(与Chatbot Arena相关性为0.96),运行快速且成本低廉(仅为MMLU的6%),每月稳定更新查询以避免污染。
  • MixEval-Hard: MixEval的困难版本,旨在增强基准区分强模型的能力。

使用方法

  • 加载MixEval: python from datasets import load_dataset dataset = load_dataset("MixEval/MixEval", MixEval)

  • 加载MixEval-Hard: python from datasets import load_dataset dataset = load_dataset("MixEval/MixEval", MixEval-Hard)

数据集优势

  • 准确的模型排名
  • 快速廉价可重复的执行
  • 动态基准测试
  • 全面较少偏见的查询分布
  • 公平的评分过程

有效性

  • MixEval和MixEval-Hard在所有基准中与Arena Elo和Arena Elo (En)的相关性最高。
  • MixEval提高了其主要基准分割与Arena Elo和Arena Elo (En)的相关性。
  • MixEval优于基准级和均匀混合。
  • MixEval有效地将真实世界用户查询映射到基于真实情况的基准。

引用

@article{ni2024mixeval, title={MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures}, author={Ni, Jinjie and Xue, Fuzhao and Yue, Xiang and Deng, Yuntian and Shah, Mahir and Jain, Kabir and Neubig, Graham and You, Yang}, journal={arXiv preprint arXiv:2406.06565}, year={2024} }

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录