MMLU, ARC, GLUE, Natural Questions, LAMBADA, HellaSwag
收藏github2023-12-07 更新2024-05-31 收录
下载链接:
https://github.com/leobeeson/llm_benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
MMLU:衡量跨57个不同学科(从STEM到社会科学)的通用知识。
ARC:测试LLMs在需要深度通用知识和推理能力的学校科学问题上的表现。
GLUE:一系列来自多个数据集的语言任务,旨在测量整体语言理解能力。
Natural Questions:收集人们在Google上提出的真实问题,并配以相关的维基百科页面以提取答案。
LAMBADA:一组测试语言模型基于长期上下文理解和预测文本能力的段落。
HellaSwag:通过要求LLMs完成需要理解复杂细节的段落来测试自然语言推理。
MMLU: Measures general knowledge across 57 different disciplines, ranging from STEM to social sciences.
ARC: Tests the performance of LLMs (Large Language Models) on school science questions that require deep general knowledge and reasoning abilities.
GLUE: A series of language tasks derived from multiple datasets, designed to measure overall language comprehension.
Natural Questions: Collects real questions people ask on Google, paired with relevant Wikipedia pages to extract answers.
LAMBADA: A set of passages that test a language model's ability to understand and predict text based on long-term context.
HellaSwag: Tests natural language inference by requiring LLMs to complete passages that involve understanding complex details.
创建时间:
2023-12-07
原始信息汇总
数据集概述
知识与语言理解
Massive Multitask Language Understanding (MMLU)
- 描述: 衡量57个不同学科的通用知识,从STEM到社会科学。
- 目的: 评估LLM在广泛学科领域的理解和推理能力。
- 相关性: 适用于需要广泛世界知识和问题解决能力的复杂AI系统。
- 资源: MMLU GitHub, MMLU Dataset
AI2 Reasoning Challenge (ARC)
- 描述: 测试LLMs解答需要深度通用知识和逻辑推理的学校科学问题。
- 目的: 评估解答复杂科学问题的能力。
- 相关性: 适用于教育AI应用和知识评估。
- 资源: ARC Dataset: HuggingFace, ARC Dataset: Allen Institute
General Language Understanding Evaluation (GLUE)
- 描述: 包含多个数据集的多种语言任务,旨在测量整体语言理解能力。
- 目的: 提供不同上下文中语言理解能力的全面评估。
- 相关性: 对需要高级语言处理的应用至关重要,如聊天机器人和内容分析。
- 资源: GLUE Homepage, GLUE Dataset
Natural Questions
- 描述: 收集人们实际在Google上搜索的问题,并配以相关的维基百科页面以提取答案。
- 目的: 测试从基于网络的来源中找到准确短和长答案的能力。
- 相关性: 对搜索引擎和信息检索系统至关重要。
- 资源: Natural Questions Homepage, Natural Questions Dataset: Github
LAnguage Modelling Broadened to Account for Discourse Aspects (LAMBADA)
- 描述: 收集测试语言模型基于长距离上下文理解和预测文本能力的段落。
- 目的: 评估模型理解和生成叙事文本的能力。
- 相关性: 对叙事分析和长文本理解应用重要。
- 资源: LAMBADA Dataset: HuggingFace
HellaSwag
- 描述: 通过要求LLMs完成需要理解复杂细节的段落来测试自然语言推理。
- 目的: 评估模型生成上下文适当文本延续的能力。
- 相关性: 对内容创建和对话系统有用。
- 资源: HellaSwag Dataset: GitHub
Multi-Genre Natural Language Inference (MultiNLI)
- 描述: 包含433K跨多种英语数据集的句子对,测试自然语言推理。
- 目的: 评估LLMs根据前提为假设陈述分配正确标签的能力。
- 相关性: 对需要高级文本理解和推理的系统重要。
- 资源: MultiNLI Homepage, MultiNLI Dataset
SuperGLUE
- 描述: GLUE基准的先进版本,包含更具挑战性和多样性的语言任务。
- 目的: 评估更深层次的语言理解和推理能力。
- 相关性: 对需要高级语言处理能力的复杂AI系统重要。
- 资源: SuperGLUE Dataset: HuggingFace
TriviaQA
- 描述: 包含来自Wikipedia等来源的阅读理解测试,要求进行上下文分析。
- 目的: 评估从复杂文本中筛选并找到准确答案的能力。
- 相关性: 适用于知识提取和详细内容分析的AI系统。
- 资源: TriviaQA GitHub, TriviaQa Dataset
WinoGrande
- 描述: 基于Winograd Schema Challenge的大量问题集,测试句子中的上下文理解。
- 目的: 评估LLMs理解文本中细微上下文和变化的能力。
- 相关性: 对叙事分析和高级文本解释模型重要。
- 资源: WinoGrande GitHub, WinoGrande Dataset: HuggingFace
SciQ
- 描述: 主要包含物理、化学和生物等自然科学的多项选择题。
- 目的: 测试解答科学问题的能力,通常附带额外支持文本。
- 相关性: 对科学教育和知识测试平台有用。
- 资源: SciQ Dataset: HuggingFace
推理能力
GSM8K
- 描述: 包含8.5K需要基本到中级数学操作的学校数学问题。
- 目的: 测试LLMs解决多步骤数学问题的能力。
- 相关性: 对评估AI解决基本数学问题的能力有用,尤其在教育环境中。
- 资源: GSM8K Dataset
Discrete Reasoning Over Paragraphs (DROP)
- 描述: 一个对抗性创建的阅读理解基准,要求模型导航引用并执行加法或排序等操作。
- 目的: 评估模型理解复杂文本和执行离散操作的能力。
- 相关性: 对需要逻辑推理的高级教育工具和文本分析系统有用。
- 资源: DROP Dataset
Counterfactual Reasoning Assessment (CRASS)
- 描述: 评估LLMs的反事实推理能力,专注于“如果”场景。
- 目的: 评估模型基于给定数据理解并推理替代场景的能力。
- 相关性: 对战略规划、决策和场景分析的AI应用重要。
- 资源: CRASS Dataset
Large-scale ReAding Comprehension Dataset From Examinations (RACE)
- 描述: 包含从中国学生英语考试中提取的阅读理解问题。
- 目的: 测试LLMs理解复杂阅读材料和解答考试级问题的能力。
- 相关性: 对语言学习和教育系统中的考试准备有用。
- 资源: RAC Dataset
Big-Bench Hard (BBH)
- 描述: BIG-Bench的一个子集,专注于需要多步骤推理的最具挑战性任务。
- 目的: 挑战LLMs处理需要高级推理技能的复杂任务。
- 相关性: 对评估AI在复杂推理和问题解决中的上限重要。
- 资源: BIG-Bench-Hard GitHub: Dataset and Prompts, BBH Dataset: HuggingFace
AGIEval
- 描述: 包含GRE、GMAT、SAT、LSAT和公务员考试等标准化测试。
- 目的: 评估LLMs在各种学术和专业场景中的推理能力和问题解决技能。
- 相关性: 对评估AI在标准化测试和专业资格认证中的能力有用。
- 资源: AGIEval Github: Dataset and Prompts, AGIEval Datasets: HuggingFace
BoolQ
- 描述: 包含超过15,000个来自Google搜索的实际是/否问题,配以维基百科段落。
- 目的: 测试LLMs从可能不明确的上下文信息中推断正确答案的能力。
- 相关性: 对问答系统和知识基础AI应用中准确推理至关重要。
- 资源: BoolQ Dataset: HuggingFace
多轮开放式对话
MT-bench
- 描述: 专门用于评估聊天助手在维持多轮对话中的熟练程度。
- 目的: 测试模型在多轮对话中保持连贯和上下文相关对话的能力。
- 相关性: 对开发复杂对话代理和聊天机器人至关重要。
- 资源: MT-bench Human Annotation Dataset
Question Answering in Context (QuAC)
- 描述: 包含14,000个对话和100,000个问题-答案对,模拟学生-教师互动。
- 目的: 挑战LLMs处理对话中依赖上下文的有时无法回答的问题。
- 相关性: 对对话AI、教育软件和上下文感知信息系统有用。
- 资源: QuAC Homepage and Dataset
接地和摘要生成
Ambient Clinical Intelligence Benchmark (ACI-BENCH)
- 描述: 包含完整的医生-患者对话和来自各种医疗领域的相关临床笔记。
- 目的: 挑战模型根据对话数据准确生成临床笔记。
- 相关性: 对医疗AI应用,尤其是自动化文档和医疗分析至关重要。
- 资源: ACI-BENCH Dataset
MAchine Reading COmprehension Dataset (MS-MARCO)
- 描述: 一个大规模的自然语言问题和答案集合,源自真实的网络查询。
- 目的: 测试模型准确理解和响应真实世界查询的能力。
- 相关性: 对搜索引擎、问答系统和面向消费者的AI应用至关重要。
- 资源: MS-MARCO Dataset
Query-based Multi-domain Meeting Summarization (QMSum)
- 描述: 一个基准,用于根据特定查询总结会议的相关部分。
- 目的: 评估模型从会议内容中提取和总结重要信息的能力。
- 相关性: 对商业智能工具、会议分析应用和自动化摘要系统有用。
- 资源: QMSum Dataset
Physical Interaction: Question Answering (PIQA)
- 描述: 通过假设场景和解决方案测试对物理世界的知识和理解。
- 目的: 衡量模型处理物理交互场景的能力。
- 相关性: 对AI应用在机器人学、物理模拟和实用问题解决系统中重要。
- 资源: PIQA Dataset: GitHub
内容审核和叙事控制
ToxiGen
- 描述: 一个关于少数群体的毒性和良性陈述的数据集,专注于隐含的仇恨言论。
- 目的: 测试模型的能力,既识别又避免生成有毒内容。
- 相关性: 对内容审核系统、社区管理和AI伦理研究至关重要。
- 资源: TOXIGEN Code and Prompts: GitHub, TOXIGEN Dataset: HuggingFace
Helpfulness, Honesty, Harmlessness (HHH)
- 描述: 评估语言模型与帮助性、诚实性和无害性等伦理标准的对齐。
- 目的: 评估模型在交互场景中的伦理响应。
- 相关性: 对确保AI系统促进积极交互和遵守伦理标准至关重要。
- 资源: HH-RLHF Datasets: GitHub
TruthfulQA
- 描述: 一个基准,用于评估LLMs在生成易受错误信念和偏见影响的问题的答案时的真实性。
- 目的: 测试模型提供准确和无偏见信息的能力。
- 相关性: 对教育或咨询角色中的AI系统,其中提供准确和无偏见的信息至关重要。
- 资源: TruthfulQA Dataset: GitHub
Responsible AI (RAI)
- 描述: 一个框架,用于评估聊天优化模型在会话设置中的安全性。
- 目的: 评估AI驱动对话中潜在的有害内容、IP泄露和安全漏洞。
- 相关性: 对开发安全和敏感领域中的安全对话AI应用至关重要。
- 资源: A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications
编码能力
CodeXGLUE
- 描述: 评估LLMs在各种任务中理解和处理代码的能力,如代码完成和翻译。
- 目的: 评估代码智能,包括理解、修复和解释代码。
- 相关性: 对软件开发、代码分析和技术文档应用至关重要。
- 资源: CodeXGLUE Dataset: GitHub
HumanEval
- 描述: 包含评估LLMs根据指令编写功能代码能力的编程挑战。
- 目的: 测试从给定要求生成正确和高效代码的能力。
- 相关性: 对自动代码生成工具、编程助手和编码教育平台重要。
- 资源: HumanEval Dataset: GitHub
Mostly Basic Python Programming (MBPP)
- 描述: 包含1,000个适合初学者的Python编程问题。
- 目的: 评估解决基本编程任务和理解Python的能力。
- 相关性: 对初学者级编码教育、自动代码生成和入门级编程测试有用。
- 资源: MBPP Dataset: HuggingFace
LLM辅助评估
LLM Judge
- 描述: 探索使用LLM作为评估工具,特别是在MT-Bench和Chatbot Arena中,以衡量人类偏好。
- 目的: 解决现有基准在测量LLM聊天助手广泛能力方面的不足。
- 相关性: 对开发和评估基于LLM的聊天助手至关重要。
- 资源: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
搜集汇总
数据集介绍

构建方式
MMLU数据集通过涵盖57个不同学科领域的广泛知识内容构建而成,旨在评估语言模型在跨学科知识理解和推理能力上的表现。数据来源包括学术文献、教科书以及公开的在线资源,经过严格的筛选和标注,确保其多样性和代表性。每个学科领域的问题均经过专家验证,以保证其科学性和准确性。
使用方法
使用MMLU数据集时,研究人员可以通过加载数据集并运行预定义的评估脚本,对语言模型进行多任务知识理解和推理能力的测试。评估结果可以用于分析模型在不同学科领域的表现差异,识别其知识盲点,并为模型的进一步优化提供数据支持。此外,数据集还可用于对比不同模型在跨学科任务中的性能,推动语言模型在复杂知识处理领域的发展。
背景与挑战
背景概述
MMLU(Massive Multitask Language Understanding)数据集由加州大学伯克利分校的研究团队于2020年提出,旨在评估语言模型在57个不同学科领域的知识和推理能力。该数据集涵盖了从STEM到社会科学等多个领域,反映了语言模型在广泛知识领域中的表现。MMLU的创建标志着语言模型评估从单一任务向多任务、多领域的转变,推动了通用人工智能系统的发展。其影响力不仅体现在学术研究中,还为教育、信息检索等领域的应用提供了重要参考。
当前挑战
MMLU数据集面临的主要挑战在于其多任务、多领域的复杂性。首先,模型需要在57个不同学科中表现出色,这对模型的泛化能力和知识广度提出了极高要求。其次,数据集的构建过程中,如何确保每个学科的数据质量和代表性是一个难题,尤其是在某些小众领域,数据的获取和标注成本较高。此外,模型在处理跨学科问题时,如何平衡不同领域的知识权重,避免偏科现象,也是当前研究中的一大挑战。
常用场景
经典使用场景
MMLU数据集广泛应用于评估大型语言模型(LLM)在多个学科领域的知识理解和推理能力。通过涵盖57个不同学科的问题,该数据集能够全面测试模型在STEM、社会科学等领域的表现,尤其适合用于开发需要广泛世界知识和复杂问题解决能力的AI系统。
解决学术问题
MMLU数据集解决了评估模型在多样化知识领域中的表现问题,帮助研究者识别模型在特定学科中的知识盲点。通过提供跨学科的问题集,该数据集推动了多任务学习的研究,促进了模型在复杂推理任务中的性能提升,为AI系统的知识广度和深度提供了量化标准。
实际应用
在实际应用中,MMLU数据集被用于开发教育辅助工具、智能问答系统和知识密集型AI应用。例如,基于该数据集训练的模型可以用于在线教育平台,为学生提供跨学科的个性化学习支持,或在专业领域为研究人员提供快速的知识检索和推理辅助。
数据集最近研究
最新研究方向
近年来,MMLU、ARC、GLUE等数据集在自然语言处理领域的研究方向主要集中在多任务学习、推理能力评估以及语言模型的泛化能力上。MMLU通过涵盖57个不同学科的知识,评估模型在广泛领域的理解和推理能力,尤其适用于需要多领域知识的AI系统。ARC则专注于科学问题的推理能力,推动教育AI和自动化辅导系统的发展。GLUE及其扩展版本SuperGLUE通过多样化的语言任务,全面评估模型的语言理解能力,为聊天机器人和内容分析等应用提供了重要参考。这些数据集的研究不仅推动了语言模型的性能提升,还为AI在复杂任务中的应用奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



