five

MMLU benchmark|机器学习数据集|基准测试数据集

收藏
arXiv2025-02-11 更新2025-02-13 收录
机器学习
基准测试
下载链接:
https://github.com/SeffiCohen/CBOD
下载链接
链接失效反馈
资源简介:
MMLU benchmark是由Hendrycks等人于2020年创建的基准测试,包含跨越57个学科的多项选择题。该数据集广泛用于评估LLM在通用知识方面的能力。文中提到,MMLU数据集经过MIT许可发布,研究团队使用DeepSeek工具生成了每个问题的变形版本,以探查LLM对标准提示格式的过度拟合情况。
提供机构:
本古里安大学, 特拉维夫大学
创建时间:
2025-02-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMLU benchmark数据集构建方式是通过收集多选题,涵盖57个学科领域,包括STEM、人文和社会科学。这些题目被设计成具有广泛的覆盖面和公共可用性,使其成为评估通用知识和LLMs对标准提示格式的过度拟合的理想候选。为了探测过度拟合,研究者们生成了原始数据集的扰动版本,这些版本在保持原始语义意义和正确答案的同时,对问题进行了同义词替换、句子重排和插入干扰短语等文本修改。这些修改旨在破坏纯粹基于表面模式的记忆映射,从而揭示模型是否过度依赖表面级模式。
特点
MMLU benchmark数据集的特点在于其广泛的学科覆盖和公共可用性,使其成为评估LLMs通用知识和对标准提示格式的过度拟合的理想工具。数据集的构建旨在通过引入受控的文本变化,如同义词替换、句子重排和插入干扰短语,来测试LLMs对表面级模式的依赖程度。这种设计使得数据集能够揭示模型是否过度拟合于特定的提示格式,而不是表现出真正的语言理解能力。此外,MMLU benchmark数据集的广泛采用和全面的学科覆盖使其成为暴露LLMs对典型提示结构过度拟合的有效工具。
使用方法
使用MMLU benchmark数据集的方法包括首先获取数据集,然后对数据集中的问题进行扰动,以创建一个扰动后的数据集。接下来,使用LLM对原始和扰动后的数据集进行评估,并比较两种情况下的性能。通过分析性能差异,可以确定模型是否过度依赖特定的提示格式或表面级模式。此外,MMLU benchmark数据集的设计允许研究人员将其集成到训练流程中,以促进更稳健的语言理解。
背景与挑战
背景概述
MMLU benchmark 数据集是一套用于评估大型语言模型(LLM)在多任务语言理解方面的能力的数据集。该数据集由 Hendrycks 等人于 2020 年创建,旨在涵盖 57 个学科领域,包括科学、人文和社会科学等。MMLU benchmark 数据集已被广泛应用于 LLM 的评估中,是衡量 LLM 能力的一个重要标准。该数据集的创建为 NLP 领域的研究提供了重要的数据支持,促进了 LLM 的研究和开发。
当前挑战
尽管 MMLU benchmark 数据集在评估 LLM 方面具有重要作用,但其也存在一些挑战。首先,MMLU benchmark 数据集可能存在过拟合的问题。由于 MMLU benchmark 数据集的广泛使用,LLM 可能会过度依赖数据集的表面模式或特定结构,而不是真正理解语言。其次,MMLU benchmark 数据集的评估指标可能存在误导性。由于 LLM 可能会过度依赖数据集的表面模式,因此高得分并不一定代表 LLM 的真实能力。最后,MMLU benchmark 数据集可能无法完全反映 LLM 在实际应用中的表现。在实际应用中,LLM 需要面对各种不同的语言环境和任务,而 MMLU benchmark 数据集可能无法完全覆盖这些场景。
常用场景
经典使用场景
MMLU benchmark 作为一项用于评估大型语言模型(LLMs)的多任务语言理解基准,旨在测试模型在广泛的主题范围内回答多项选择题的能力。该数据集涵盖了包括科学、人文和社会科学在内的57个学科,为研究人员提供了一个全面的评估工具,用于衡量LLMs在处理不同类型知识和理解复杂概念方面的能力。MMLU benchmark 经常被用于比较不同 LLMs 的性能,以评估它们在现实世界应用中的潜在价值,尤其是在需要广泛知识背景的领域。
实际应用
MMLU benchmark 在实际应用场景中发挥着重要作用。首先,它为开发者和研究人员提供了一个基准,用于评估和比较不同 LLMs 的性能,从而帮助选择最合适的模型用于特定任务。其次,MMLU benchmark 的研究结果有助于改进 LLMs 的训练和微调过程,通过识别和减少过拟合现象,提高模型的泛化能力和鲁棒性。此外,MMLU benchmark 还为 LLMs 的实际应用提供了参考,例如在问答系统、智能助手和教育等领域,帮助用户更好地理解和利用 LLMs 的能力。
衍生相关工作
MMLU benchmark 衍生了许多相关的经典工作。例如,Chameleon Benchmark Overfit Detector (C-BOD) 是一个元评估框架,通过系统地扭曲基准提示并检测 LLMs 的过度拟合,揭示了模型是否过度依赖于数据集特定的表面提示。C-BOD 的研究结果挑战了社区对排行榜分数的过度依赖,并强调了在 LLM 评估中优先考虑鲁棒性和泛化能力的重要性。此外,MMLU benchmark 的研究也为 LLMs 的训练和微调过程提供了指导,帮助研究人员开发更具鲁棒性和泛化能力的模型。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录