mmlu_olmo3_contamination

Hugging Face2025-12-23 更新2025-12-24 收录

下载链接：

https://huggingface.co/datasets/nthngdy/mmlu_olmo3_contamination

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置代表不同的学科领域（如抽象代数、解剖学、天文学等）。每个配置包含诸如'question'（问题）、'subject'（学科）、'choices'（选项）、'answer'（答案）和'contamination_count'（污染计数）等特征，并指定了数据类型。数据集被分为'test'（测试）、'validation'（验证）和'dev'（开发）集，并提供了每个分割的字节数和示例数。该数据集似乎是跨多个学术和专业学科的多选题集合，旨在用于测试和验证目的。

创建时间：

2025-12-18

原始信息汇总

数据集概述

数据集基本信息

数据集名称: mmlu_olmo3_contamination
来源地址: https://huggingface.co/datasets/nthngdy/mmlu_olmo3_contamination
数据集结构: 包含多个配置（config），每个配置对应一个特定学科主题。

数据内容与特征

核心内容: 多项选择题及其答案。
数据特征:
- question: 问题文本（字符串类型）。
- subject: 学科主题（字符串类型）。
- choices: 选项列表（字符串列表）。
- answer: 答案标签，对应选项A、B、C、D（类别标签，映射为0、1、2、3）。
- contamination_count: 污染计数（int64类型）。

数据集配置与规模

数据集共包含57个学科配置，涵盖抽象代数、解剖学、天文学、商业伦理、临床知识、大学/高中各学科、计算机科学、经济学、工程学、历史、法律、数学、物理、心理学、统计学等多个领域。

主要配置示例及数据规模

配置名称	测试集样本数	验证集样本数	开发集样本数	下载大小（字节）	数据集总大小（字节）
abstract_algebra	100	11	5	17157	25394
anatomy	135	14	5	28816	40118
astronomy	152	16	5	39153	57471
business_ethics	100	11	5	30911	41576
clinical_knowledge	265	29	5	51598	79562
college_biology	144	16	5	42721	59567
college_chemistry	100	8	5	26524	31608
college_computer_science	100	11	5	39480	54209
college_mathematics	100	11	5	26157	32432
college_medicine	173	22	5	55826	97540
college_physics	102	11	5	28491	38233
computer_security	100	11	5	29738	36102
conceptual_physics	235	26	5	34894	54061
econometrics	114	12	5	35379	56266
electrical_engineering	145	16	5	26686	34625
elementary_mathematics	378	41	5	54767	94916
formal_logic	126	14	5	31802	61238
global_facts	100	10	5	19088	24221
high_school_biology	310	32	5	77748	133148
high_school_chemistry	203	22	5	45484	74330
high_school_computer_science	100	9	5	38142	55261
high_school_european_history	165	18	5	186941	318980
high_school_geography	198	22	5	38284	55158
high_school_government_and_politics	193	21	5	52610	85173
high_school_macroeconomics	390	43	5	68823	148643
high_school_mathematics	270	29	5	44680	72520
high_school_microeconomics	238	26	5	49743	94740
high_school_physics	151	17	5	44918	73125
high_school_psychology	545	60	5	112804	199285
high_school_statistics	216	23	5	73817	131487
high_school_us_history	204	22	5	192837	345122
high_school_world_history	237	26	5	242808	438880
human_aging	223	23	5	41091	57550
human_sexuality	131	12	5	32042	39568
international_law	121	13	5	41115	66417
jurisprudence	信息不完整	信息不完整	信息不完整	信息不完整	信息不完整

数据划分

每个配置均包含三个标准数据划分：

测试集（test）: 主要评估数据。
验证集（validation）: 用于参数调整或验证。
开发集（dev）: 小规模样本集。

搜集汇总

数据集介绍

构建方式

在人工智能模型评估领域，数据集的构建质量直接影响评估结果的可靠性。mmlu_olmo3_contamination数据集基于广泛使用的MMLU基准，通过系统化的数据清洗与标注流程构建而成。该数据集涵盖了从抽象代数到法学的57个学科子集，每个子集均包含标准化的多项选择题，并额外引入了污染计数特征，用以量化数据在预训练语料中的暴露程度。构建过程中，数据被划分为测试集、验证集和开发集，确保了评估流程的结构化与可重复性。

特点

该数据集的核心特征在于其多维度的学科覆盖与精细的污染标注。它不仅囊括了自然科学、社会科学及人文领域的广泛主题，还通过contamination_count字段为每个问题提供了独特的污染指数，这为研究数据泄露对模型性能的影响提供了关键维度。数据集的结构设计严谨，每个样本均包含问题文本、学科类别、选项列表及标准答案，格式统一且便于机器解析。这种设计使得数据集既能用于传统的知识评估，也能支持前沿的数据污染分析研究。

使用方法

使用该数据集时，研究人员可依托其多学科架构进行全面的模型能力评估。典型流程包括加载特定学科配置，利用测试集进行零样本或少样本推理，并通过验证集调整超参数。污染计数信息允许用户筛选数据子集，以分析模型表现与数据污染程度的相关性。数据集与Hugging Face生态无缝集成，可通过标准数据加载工具高效访问，支持批量处理与分布式评估，为大规模语言模型的鲁棒性研究提供了标准化实验平台。

背景与挑战

背景概述

在大型语言模型评估领域，MMLU数据集作为衡量模型多学科知识理解能力的基准，自2020年由Dan Hendrycks等研究者提出以来，已成为评估模型泛化性能的重要工具。该数据集涵盖从高中到大学水平的57个学科，旨在检验模型在专业领域问题上的推理与知识应用能力。mmlu_olmo3_contamination作为其衍生版本，专注于检测训练数据污染问题，由研究机构通过分析模型预训练数据与评估集的重叠程度构建，以提升评估结果的可靠性与公正性，对推动模型评估方法的透明化与标准化具有深远影响。

当前挑战

该数据集致力于解决多学科知识评估中训练数据污染带来的模型性能虚高问题，其核心挑战在于精确量化污染程度并确保评估的纯净性。构建过程中需应对大规模预训练数据与评估集之间的复杂匹配，涉及高效文本去重算法设计与跨学科语义相似性判定的技术难题。同时，维护数据标注的准确性与学科领域权威性，避免因污染计数偏差导致评估失真，亦是保障数据集科学价值的关键所在。

常用场景

经典使用场景

在大型语言模型评估领域，mmlu_olmo3_contamination数据集作为MMLU基准的衍生版本，其经典使用场景在于系统性地检测和量化模型训练数据中的污染问题。该数据集覆盖了从抽象代数、临床知识到国际法学等57个专业学科，通过引入contamination_count字段，为研究者提供了精确衡量特定题目在预训练语料中出现频次的指标。这使得评估过程能够区分模型是依靠泛化能力解题，还是仅仅记忆了训练数据中的答案，从而在模型能力评估中实现了更精细的区分度。

实际应用

在实际应用层面，该数据集被广泛用于大型语言模型研发与审计流程中。模型开发团队利用其污染计数数据，可以在模型发布前进行更严格的内部评估，识别出那些可能因数据泄露而虚高的能力指标。独立评估机构或学术实验室则能依据该数据集，对市面上各类模型进行公平的横向对比，出具更具公信力的评测报告。此外，在构建高质量、低污染的后续训练数据集时，该数据集也能作为重要的参考依据，帮助数据工程师筛选和清洗数据，从而提升未来模型的泛化性能与可靠性。

衍生相关工作

围绕该数据集衍生的经典研究工作，主要集中在模型评估方法论与数据污染分析两个方向。一系列研究借鉴其污染标注思路，开发了更通用的数据污染检测算法与统计框架。部分工作则深入分析了污染对不同学科领域题目难度的影响，揭示了模型知识记忆的异质性。更有研究以此为基础，提出了对模型测试分数进行污染校正的统计模型，旨在报告“纯净”的性能估计。这些衍生工作共同推动形成了大模型时代更严谨、更透明的评估文化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集