MixEval/MixEval
收藏Hugging Face2024-09-27 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/MixEval/MixEval
下载链接
链接失效反馈官方服务:
资源简介:
MixEval是一个基于真实世界用户查询的动态基准测试,旨在通过结合现有基准测试中的查询来评估大型语言模型(LLMs)。它包括两个版本:MixEval和MixEval-Hard,后者是前者的困难版本,旨在更好地区分强模型。数据集包含自由形式和多项选择题两种类型,并定期更新以避免数据污染。MixEval的优势包括准确的模型排名、快速且廉价的执行、动态基准测试、全面且偏少的查询分布以及公平的评分机制。
MixEval is a dynamic benchmark built on real-world user queries, designed to evaluate Large Language Models (LLMs) by aggregating queries from existing benchmarks. It features two variants: MixEval and MixEval-Hard, with the latter being a more challenging edition aimed at better distinguishing top-performing models. The dataset encompasses both free-form and multiple-choice question formats, and is updated regularly to prevent data contamination. The strengths of MixEval include accurate model ranking, fast and low-cost execution, dynamic benchmarking, a comprehensive yet minimally redundant query distribution, and a fair scoring mechanism.
提供机构:
MixEval
原始信息汇总
MixEval 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 文本生成
- 文本检索
- 问答
- 语言: 英语
- 名称: MixEval
- 大小类别: 1K<n<10K
- 标签:
- 基准测试
- 大型语言模型评估
- 动态基准测试
- 多模态大型模型
- 机器学习
- 深度学习
配置详情
- MixEval:
- 数据文件:
- 自由形式:
data/mixeval-jsonl/mixeval/free-form.jsonl - 多项选择:
data/mixeval-jsonl/mixeval/multiple-choice.jsonl
- 自由形式:
- 数据文件:
- MixEval_Hard:
- 数据文件:
- 自由形式:
data/mixeval-jsonl/mixeval-hard/free-form.jsonl - 多项选择:
data/mixeval-jsonl/mixeval-hard/multiple-choice.jsonl
- 自由形式:
- 数据文件:
数据集更新
- 当前动态基准版本:
2024-06-01
数据集概述
- MixEval: 基于现成基准混合的动态基准,评估大型语言模型,具有高能力模型排名(与Chatbot Arena相关性为0.96),运行快速且成本低廉(仅为MMLU的6%),每月稳定更新查询以避免污染。
- MixEval-Hard: MixEval的困难版本,旨在增强基准区分强模型的能力。
使用方法
-
加载MixEval: python from datasets import load_dataset dataset = load_dataset("MixEval/MixEval", MixEval)
-
加载MixEval-Hard: python from datasets import load_dataset dataset = load_dataset("MixEval/MixEval", MixEval-Hard)
数据集优势
- 准确的模型排名
- 快速、廉价和可重复的执行
- 动态基准测试
- 全面和较少偏见的查询分布
- 公平的评分过程
有效性
- MixEval和MixEval-Hard在所有基准中与Arena Elo和Arena Elo (En)的相关性最高。
- MixEval提高了其主要基准分割与Arena Elo和Arena Elo (En)的相关性。
- MixEval优于基准级和均匀混合。
- MixEval有效地将真实世界用户查询映射到基于真实情况的基准。
引用
@article{ni2024mixeval, title={MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures}, author={Ni, Jinjie and Xue, Fuzhao and Yue, Xiang and Deng, Yuntian and Shah, Mahir and Jain, Kabir and Neubig, Graham and You, Yang}, journal={arXiv preprint arXiv:2406.06565}, year={2024} }
搜集汇总
数据集介绍

构建方式
在大型语言模型评估领域,MixEval数据集通过一种创新的基准混合方法构建而成。其核心流程是从大规模网络语料库中挖掘真实用户查询,并将这些查询与现有基准测试中的相似问题进行匹配与映射,从而形成数据点。该数据集采用动态更新机制,通过一个快速且稳定的流水线定期更换数据批次,确保查询内容来自同一分布但具有高度独特性,有效缓解了模型污染问题。整个构建过程强调可复现性与低方差,为评估提供了坚实的数据基础。
特点
MixEval数据集展现出多维度显著特征。在评估效能上,其模型排名与广泛认可的Chatbot Arena具有高达0.96的相关性,确保了评估结果的准确性。数据集包含标准版MixEval及其更具挑战性的MixEval-Hard版本,两者均提供自由形式和多项选择题两种任务划分,覆盖了文本生成、问答等多种任务类别。其查询分布基于大规模网络语料,因而更为全面且偏差较小。动态基准测试特性使得数据集能够定期更新,同时保持评估分数的稳定性,版本间差异显著。
使用方法
对于研究者而言,使用MixEval数据集主要有两种途径。推荐的方式是采用其官方提供的一站式评估套件,该套件设计为即点即用,能够公平、便捷地评估开源或专有模型。若希望使用自定义评估代码,用户可通过Hugging Face的`datasets`库直接加载数据集,指定`MixEval`或`MixEval_Hard`配置名即可获取对应的自由形式与多项选择数据分片。评估过程完全在本地运行,依赖基于标准答案的评分机制,无需人工干预,兼具高效、低成本与高可复现性的优势。
背景与挑战
背景概述
在大型语言模型(LLM)评估领域,传统基准测试常与现实应用场景脱节,而依赖人类反馈的评估方法则成本高昂且难以复现。为弥合这一鸿沟,MixEval数据集应运而生,由Jinjie Ni等研究人员于2024年提出,其核心研究问题在于如何构建一个既高效、低成本,又能准确反映模型在真实用户查询中性能的评估基准。该数据集通过从现有基准中筛选与网络用户查询语义匹配的样本,构建了动态更新的基准混合物,显著提升了评估结果与Chatbot Arena等真实场景评估的相关性,对推动LLM评估方法的标准化与实用化产生了深远影响。
当前挑战
MixEval数据集旨在解决通用大语言模型能力评估的挑战,其核心在于如何精准衡量模型在开放域、多样化用户查询下的综合性能,而非局限于特定任务。构建过程中的挑战尤为突出:首先,需从海量网络语料中挖掘具有代表性的真实用户查询,并确保其与现有基准问题的语义对齐,这涉及复杂的自然语言理解与匹配技术。其次,为维持评估的区分度与公平性,需设计动态更新机制以抵御数据污染,同时通过拒绝性采样等方法保证‘困难版’数据集的分布稳定性,这些都对数据工程的鲁棒性与科学性提出了极高要求。
常用场景
经典使用场景
在大型语言模型评估领域,MixEval数据集作为动态基准测试工具,其经典应用场景在于高效评估模型在开放域任务上的综合能力。该数据集通过从现有基准测试中筛选与真实用户查询相似的条目,构建了一个覆盖文本生成、问答、检索等多任务的混合评估集。研究者通常利用其自由形式和多项选择题两种分割,对模型进行快速、可复现的自动化评估,尤其适用于对比不同架构或规模的模型在复杂语言理解任务上的表现差异。
衍生相关工作
基于MixEval的设计理念与方法论,衍生出了一系列关于基准测试构建与模型评估的前沿研究。其提出的动态基准更新机制启发了后续工作对评估数据污染问题的系统性解决方案,而通过查询匹配构建混合基准的思路则为跨领域评估任务提供了新范式。相关研究进一步探索了不同采样策略对评估区分度的影响,并尝试将类似方法扩展至多模态任务评估。这些工作共同推动了大模型评估从静态单一维度向动态综合能力评估的范式转变。
数据集最近研究
最新研究方向
在大语言模型评估领域,MixEval数据集作为动态基准测试的典范,正引领着高效且可复现的模型性能评估新趋势。该数据集通过整合网络挖掘的真实用户查询与现有基准测试的相似问题,构建了兼具高相关性与低成本的评估框架,其与Chatbot Arena高达0.96的相关性验证了其在模型排名上的准确性。前沿研究聚焦于动态基准测试机制的优化,通过月度稳定更新数据点以应对模型污染问题,同时探索硬核版本MixEval-Hard在区分顶尖模型能力上的深化应用。这些进展不仅推动了评估方法从静态向动态的演进,也为开源与专有模型的公平比较提供了标准化工具,显著降低了大规模评估的资源门槛,对促进大语言模型生态的健康发展具有深远意义。
以上内容由遇见数据集搜集并总结生成



