MMLU, ARC, GLUE, Natural Questions, LAMBADA, HellaSwag

github2023-12-07 更新2024-05-31 收录

下载链接：

https://github.com/leobeeson/llm_benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU：衡量跨57个不同学科（从STEM到社会科学）的通用知识。 ARC：测试LLMs在需要深度通用知识和推理能力的学校科学问题上的表现。 GLUE：一系列来自多个数据集的语言任务，旨在测量整体语言理解能力。 Natural Questions：收集人们在Google上提出的真实问题，并配以相关的维基百科页面以提取答案。 LAMBADA：一组测试语言模型基于长期上下文理解和预测文本能力的段落。 HellaSwag：通过要求LLMs完成需要理解复杂细节的段落来测试自然语言推理。

MMLU: Measures general knowledge across 57 different disciplines, ranging from STEM to social sciences. ARC: Tests the performance of LLMs (Large Language Models) on school science questions that require deep general knowledge and reasoning abilities. GLUE: A series of language tasks derived from multiple datasets, designed to measure overall language comprehension. Natural Questions: Collects real questions people ask on Google, paired with relevant Wikipedia pages to extract answers. LAMBADA: A set of passages that test a language model's ability to understand and predict text based on long-term context. HellaSwag: Tests natural language inference by requiring LLMs to complete passages that involve understanding complex details.

创建时间：

2023-12-07

原始信息汇总

数据集概述

知识与语言理解

Massive Multitask Language Understanding (MMLU)

描述: 衡量57个不同学科的通用知识，从STEM到社会科学。
目的: 评估LLM在广泛学科领域的理解和推理能力。
相关性: 适用于需要广泛世界知识和问题解决能力的复杂AI系统。
资源: MMLU GitHub, MMLU Dataset

AI2 Reasoning Challenge (ARC)

描述: 测试LLMs解答需要深度通用知识和逻辑推理的学校科学问题。
目的: 评估解答复杂科学问题的能力。
相关性: 适用于教育AI应用和知识评估。
资源: ARC Dataset: HuggingFace, ARC Dataset: Allen Institute

General Language Understanding Evaluation (GLUE)

描述: 包含多个数据集的多种语言任务，旨在测量整体语言理解能力。
目的: 提供不同上下文中语言理解能力的全面评估。
相关性: 对需要高级语言处理的应用至关重要，如聊天机器人和内容分析。
资源: GLUE Homepage, GLUE Dataset

Natural Questions

描述: 收集人们实际在Google上搜索的问题，并配以相关的维基百科页面以提取答案。
目的: 测试从基于网络的来源中找到准确短和长答案的能力。
相关性: 对搜索引擎和信息检索系统至关重要。
资源: Natural Questions Homepage, Natural Questions Dataset: Github

LAnguage Modelling Broadened to Account for Discourse Aspects (LAMBADA)

描述: 收集测试语言模型基于长距离上下文理解和预测文本能力的段落。
目的: 评估模型理解和生成叙事文本的能力。
相关性: 对叙事分析和长文本理解应用重要。
资源: LAMBADA Dataset: HuggingFace

HellaSwag

描述: 通过要求LLMs完成需要理解复杂细节的段落来测试自然语言推理。
目的: 评估模型生成上下文适当文本延续的能力。
相关性: 对内容创建和对话系统有用。
资源: HellaSwag Dataset: GitHub

Multi-Genre Natural Language Inference (MultiNLI)

描述: 包含433K跨多种英语数据集的句子对，测试自然语言推理。
目的: 评估LLMs根据前提为假设陈述分配正确标签的能力。
相关性: 对需要高级文本理解和推理的系统重要。
资源: MultiNLI Homepage, MultiNLI Dataset

SuperGLUE

描述: GLUE基准的先进版本，包含更具挑战性和多样性的语言任务。
目的: 评估更深层次的语言理解和推理能力。
相关性: 对需要高级语言处理能力的复杂AI系统重要。
资源: SuperGLUE Dataset: HuggingFace

TriviaQA

描述: 包含来自Wikipedia等来源的阅读理解测试，要求进行上下文分析。
目的: 评估从复杂文本中筛选并找到准确答案的能力。
相关性: 适用于知识提取和详细内容分析的AI系统。
资源: TriviaQA GitHub, TriviaQa Dataset

WinoGrande

描述: 基于Winograd Schema Challenge的大量问题集，测试句子中的上下文理解。
目的: 评估LLMs理解文本中细微上下文和变化的能力。
相关性: 对叙事分析和高级文本解释模型重要。
资源: WinoGrande GitHub, WinoGrande Dataset: HuggingFace

SciQ

描述: 主要包含物理、化学和生物等自然科学的多项选择题。
目的: 测试解答科学问题的能力，通常附带额外支持文本。
相关性: 对科学教育和知识测试平台有用。
资源: SciQ Dataset: HuggingFace

推理能力

GSM8K

描述: 包含8.5K需要基本到中级数学操作的学校数学问题。
目的: 测试LLMs解决多步骤数学问题的能力。
相关性: 对评估AI解决基本数学问题的能力有用，尤其在教育环境中。
资源: GSM8K Dataset

Discrete Reasoning Over Paragraphs (DROP)

描述: 一个对抗性创建的阅读理解基准，要求模型导航引用并执行加法或排序等操作。
目的: 评估模型理解复杂文本和执行离散操作的能力。
相关性: 对需要逻辑推理的高级教育工具和文本分析系统有用。
资源: DROP Dataset

Counterfactual Reasoning Assessment (CRASS)

描述: 评估LLMs的反事实推理能力，专注于“如果”场景。
目的: 评估模型基于给定数据理解并推理替代场景的能力。
相关性: 对战略规划、决策和场景分析的AI应用重要。
资源: CRASS Dataset

Large-scale ReAding Comprehension Dataset From Examinations (RACE)

描述: 包含从中国学生英语考试中提取的阅读理解问题。
目的: 测试LLMs理解复杂阅读材料和解答考试级问题的能力。
相关性: 对语言学习和教育系统中的考试准备有用。
资源: RAC Dataset

Big-Bench Hard (BBH)

描述: BIG-Bench的一个子集，专注于需要多步骤推理的最具挑战性任务。
目的: 挑战LLMs处理需要高级推理技能的复杂任务。
相关性: 对评估AI在复杂推理和问题解决中的上限重要。
资源: BIG-Bench-Hard GitHub: Dataset and Prompts, BBH Dataset: HuggingFace

AGIEval

描述: 包含GRE、GMAT、SAT、LSAT和公务员考试等标准化测试。
目的: 评估LLMs在各种学术和专业场景中的推理能力和问题解决技能。
相关性: 对评估AI在标准化测试和专业资格认证中的能力有用。
资源: AGIEval Github: Dataset and Prompts, AGIEval Datasets: HuggingFace

BoolQ

描述: 包含超过15,000个来自Google搜索的实际是/否问题，配以维基百科段落。
目的: 测试LLMs从可能不明确的上下文信息中推断正确答案的能力。
相关性: 对问答系统和知识基础AI应用中准确推理至关重要。
资源: BoolQ Dataset: HuggingFace

多轮开放式对话

MT-bench

描述: 专门用于评估聊天助手在维持多轮对话中的熟练程度。
目的: 测试模型在多轮对话中保持连贯和上下文相关对话的能力。
相关性: 对开发复杂对话代理和聊天机器人至关重要。
资源: MT-bench Human Annotation Dataset

Question Answering in Context (QuAC)

描述: 包含14,000个对话和100,000个问题-答案对，模拟学生-教师互动。
目的: 挑战LLMs处理对话中依赖上下文的有时无法回答的问题。
相关性: 对对话AI、教育软件和上下文感知信息系统有用。
资源: QuAC Homepage and Dataset

接地和摘要生成

Ambient Clinical Intelligence Benchmark (ACI-BENCH)

描述: 包含完整的医生-患者对话和来自各种医疗领域的相关临床笔记。
目的: 挑战模型根据对话数据准确生成临床笔记。
相关性: 对医疗AI应用，尤其是自动化文档和医疗分析至关重要。
资源: ACI-BENCH Dataset

MAchine Reading COmprehension Dataset (MS-MARCO)

描述: 一个大规模的自然语言问题和答案集合，源自真实的网络查询。
目的: 测试模型准确理解和响应真实世界查询的能力。
相关性: 对搜索引擎、问答系统和面向消费者的AI应用至关重要。
资源: MS-MARCO Dataset

Query-based Multi-domain Meeting Summarization (QMSum)

描述: 一个基准，用于根据特定查询总结会议的相关部分。
目的: 评估模型从会议内容中提取和总结重要信息的能力。
相关性: 对商业智能工具、会议分析应用和自动化摘要系统有用。
资源: QMSum Dataset

Physical Interaction: Question Answering (PIQA)

描述: 通过假设场景和解决方案测试对物理世界的知识和理解。
目的: 衡量模型处理物理交互场景的能力。
相关性: 对AI应用在机器人学、物理模拟和实用问题解决系统中重要。
资源: PIQA Dataset: GitHub

内容审核和叙事控制

ToxiGen

描述: 一个关于少数群体的毒性和良性陈述的数据集，专注于隐含的仇恨言论。
目的: 测试模型的能力，既识别又避免生成有毒内容。
相关性: 对内容审核系统、社区管理和AI伦理研究至关重要。
资源: TOXIGEN Code and Prompts: GitHub, TOXIGEN Dataset: HuggingFace

Helpfulness, Honesty, Harmlessness (HHH)

描述: 评估语言模型与帮助性、诚实性和无害性等伦理标准的对齐。
目的: 评估模型在交互场景中的伦理响应。
相关性: 对确保AI系统促进积极交互和遵守伦理标准至关重要。
资源: HH-RLHF Datasets: GitHub

TruthfulQA

描述: 一个基准，用于评估LLMs在生成易受错误信念和偏见影响的问题的答案时的真实性。
目的: 测试模型提供准确和无偏见信息的能力。
相关性: 对教育或咨询角色中的AI系统，其中提供准确和无偏见的信息至关重要。
资源: TruthfulQA Dataset: GitHub

Responsible AI (RAI)

描述: 一个框架，用于评估聊天优化模型在会话设置中的安全性。
目的: 评估AI驱动对话中潜在的有害内容、IP泄露和安全漏洞。
相关性: 对开发安全和敏感领域中的安全对话AI应用至关重要。
资源: A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

编码能力

CodeXGLUE

描述: 评估LLMs在各种任务中理解和处理代码的能力，如代码完成和翻译。
目的: 评估代码智能，包括理解、修复和解释代码。
相关性: 对软件开发、代码分析和技术文档应用至关重要。
资源: CodeXGLUE Dataset: GitHub

HumanEval

描述: 包含评估LLMs根据指令编写功能代码能力的编程挑战。
目的: 测试从给定要求生成正确和高效代码的能力。
相关性: 对自动代码生成工具、编程助手和编码教育平台重要。
资源: HumanEval Dataset: GitHub

Mostly Basic Python Programming (MBPP)

描述: 包含1,000个适合初学者的Python编程问题。
目的: 评估解决基本编程任务和理解Python的能力。
相关性: 对初学者级编码教育、自动代码生成和入门级编程测试有用。
资源: MBPP Dataset: HuggingFace

LLM辅助评估

LLM Judge

描述: 探索使用LLM作为评估工具，特别是在MT-Bench和Chatbot Arena中，以衡量人类偏好。
目的: 解决现有基准在测量LLM聊天助手广泛能力方面的不足。
相关性: 对开发和评估基于LLM的聊天助手至关重要。
资源: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

搜集汇总

数据集介绍

构建方式

MMLU数据集通过涵盖57个不同学科领域的广泛知识内容构建而成，旨在评估语言模型在跨学科知识理解和推理能力上的表现。数据来源包括学术文献、教科书以及公开的在线资源，经过严格的筛选和标注，确保其多样性和代表性。每个学科领域的问题均经过专家验证，以保证其科学性和准确性。

使用方法

使用MMLU数据集时，研究人员可以通过加载数据集并运行预定义的评估脚本，对语言模型进行多任务知识理解和推理能力的测试。评估结果可以用于分析模型在不同学科领域的表现差异，识别其知识盲点，并为模型的进一步优化提供数据支持。此外，数据集还可用于对比不同模型在跨学科任务中的性能，推动语言模型在复杂知识处理领域的发展。

背景与挑战

背景概述

MMLU（Massive Multitask Language Understanding）数据集由加州大学伯克利分校的研究团队于2020年提出，旨在评估语言模型在57个不同学科领域的知识和推理能力。该数据集涵盖了从STEM到社会科学等多个领域，反映了语言模型在广泛知识领域中的表现。MMLU的创建标志着语言模型评估从单一任务向多任务、多领域的转变，推动了通用人工智能系统的发展。其影响力不仅体现在学术研究中，还为教育、信息检索等领域的应用提供了重要参考。

当前挑战

MMLU数据集面临的主要挑战在于其多任务、多领域的复杂性。首先，模型需要在57个不同学科中表现出色，这对模型的泛化能力和知识广度提出了极高要求。其次，数据集的构建过程中，如何确保每个学科的数据质量和代表性是一个难题，尤其是在某些小众领域，数据的获取和标注成本较高。此外，模型在处理跨学科问题时，如何平衡不同领域的知识权重，避免偏科现象，也是当前研究中的一大挑战。

常用场景

经典使用场景

MMLU数据集广泛应用于评估大型语言模型（LLM）在多个学科领域的知识理解和推理能力。通过涵盖57个不同学科的问题，该数据集能够全面测试模型在STEM、社会科学等领域的表现，尤其适合用于开发需要广泛世界知识和复杂问题解决能力的AI系统。

解决学术问题

MMLU数据集解决了评估模型在多样化知识领域中的表现问题，帮助研究者识别模型在特定学科中的知识盲点。通过提供跨学科的问题集，该数据集推动了多任务学习的研究，促进了模型在复杂推理任务中的性能提升，为AI系统的知识广度和深度提供了量化标准。

实际应用

在实际应用中，MMLU数据集被用于开发教育辅助工具、智能问答系统和知识密集型AI应用。例如，基于该数据集训练的模型可以用于在线教育平台，为学生提供跨学科的个性化学习支持，或在专业领域为研究人员提供快速的知识检索和推理辅助。

数据集最近研究