joey234/mmlu-college_biology

Name: joey234/mmlu-college_biology
Creator: joey234
Published: 2023-08-23 04:29:43
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-college_biology

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: fewshot_context_neg dtype: string splits: - name: dev num_bytes: 5229 num_examples: 5 - name: test num_bytes: 588718 num_examples: 144 download_size: 98643 dataset_size: 593947 configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* --- # Dataset Card for "mmlu-college_biology" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征项： - 字段名：question，数据类型：字符串 - 字段名：choices，序列类型：字符串 - 字段名：answer，数据类型：类别标签（class_label），映射规则为：'0'对应A，'1'对应B，'2'对应C，'3'对应D - 字段名：negate_openai_prompt，结构体类型，包含以下子字段： - 字段名：content，数据类型：字符串 - 字段名：role，数据类型：字符串 - 字段名：neg_question，数据类型：字符串 - 字段名：fewshot_context，数据类型：字符串 - 字段名：fewshot_context_neg，数据类型：字符串数据集划分： - 划分集名称：dev（开发集），字节占用量：5229，样本数量：5 - 划分集名称：test（测试集），字节占用量：588718，样本数量：144 下载大小：98643 字节，数据集总大小：593947 字节配置项： - 配置名称：default（默认配置），数据文件配置： - 划分集：dev（开发集），路径：data/dev-* - 划分集：test（测试集），路径：data/test-* --- # "mmlu-college_biology"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

joey234

原始信息汇总

数据集概述

数据集名称

mmlu-college_biology

数据特征

question: 数据类型为字符串。
choices: 数据类型为字符串序列。
answer: 数据类型为分类标签，标签名分别为 A, B, C, D。
negate_openai_prompt: 结构化数据，包含以下字段：
- content: 数据类型为字符串。
- role: 数据类型为字符串。
neg_question: 数据类型为字符串。
fewshot_context: 数据类型为字符串。
fewshot_context_neg: 数据类型为字符串。

数据分割

dev: 包含5个样本，占用5229字节。
test: 包含144个样本，占用588718字节。

数据集大小

下载大小: 98643字节
数据集总大小: 593947字节

数据文件配置

default 配置下，数据文件路径如下：
- dev: data/dev-*
- test: data/test-*

搜集汇总

数据集介绍

构建方式

在生物学科研与教育领域，大规模多任务语言理解（MMLU）基准中专门针对大学生物学知识的数据子集——joey234/mmlu-college_biology，旨在评估模型在高等教育生物学范畴的推理能力。该数据集从原始MMLU语料库中抽取，聚焦于涵盖细胞生物学、遗传学、进化论等核心主题的多项选择题。每条样本包含问题文本（question）、四个选项（choices）、正确答案标签（answer）以及为对抗性评估设计的否定提示字段（negate_openai_prompt）和否定问题（neg_question）。数据集划分为开发集（dev，5条示例）和测试集（test，144条样本），以标准化格式存储于HuggingFace平台上。

特点

该数据集的核心特色在于其精细化的结构设计，不仅保留了传统问答对，还创新性地引入了否定式提示与上下文变体。具体而言，negate_openai_prompt字段通过构造否定性指令来测试模型对语义反转的鲁棒性，而fewshot_context与fewshot_context_neg则提供了带示例的上下文，模拟少样本学习场景。这些设计使得数据集能够深入探究模型在正向推理与对抗性干扰下的表现差异，尤其适用于评估大型语言模型在专业生物学知识上的理解深度与逻辑一致性。

使用方法

使用该数据集时，研究者可基于HuggingFace Datasets库直接加载，通过指定split参数获取dev或test子集。典型应用包括微调预训练语言模型以提升生物学问答能力，或作为基准测试模型在多项选择任务上的准确率。建议利用question与choices字段构建输入，以answer字段作为监督信号；同时可借助neg_question进行鲁棒性分析，或使用fewshot_context实现少样本提示学习。数据以JSON Lines格式存储，兼容主流深度学习框架，便于集成至评估流水线中。

背景与挑战

背景概述

在自然语言处理与知识推理的交汇领域，大规模多任务语言理解（MMLU）基准测试的提出标志着对模型综合认知能力评估的重要里程碑。其中，college_biology子数据集专为评估模型在大学生物学知识层面的掌握程度而设计，由joey234于2023年左右整理并发布在HuggingFace平台上。该数据集聚焦于生物学领域的核心概念与原理，涵盖从细胞生物学到生态系统的广泛主题，旨在检验语言模型在专业学科语境下的推理与知识检索能力。作为MMLU系列的一部分，college_biology为研究人工智能在教育辅助、科学问答等场景中的表现提供了关键测试资源，其影响力体现在推动模型从通用对话向学科专业化方向的演进。

当前挑战

college_biology数据集所面临的挑战首先源于领域问题的复杂性：生物学知识体系具有高度专业性和层级结构，要求模型不仅记忆事实，还需理解因果逻辑与动态过程，这远超简单分类任务的需求。其次，构建过程中需克服数据稀疏与标注一致性难题——仅有144个测试样本和5个开发样本，使得模型难以从有限示例中泛化，同时多选题设计（A-D选项）要求精确匹配正确答案，增加了对语义歧义处理的难度。此外，数据集依赖人工构建的负样本（如neg_question字段）来提升鲁棒性，但如何确保负样本的自然性与干扰性平衡，仍是提升评测信效度的关键瓶颈。

常用场景

经典使用场景

在自然语言处理与知识推理的交叉领域中，joey234/mmlu-college_biology数据集作为大规模多任务语言理解（MMLU）基准测试的子集，聚焦于大学水平的生物学知识。其经典使用场景在于评估语言模型在专业学科问答上的能力，通过包含144道涵盖细胞生物学、遗传学、生态学等核心主题的多选题，检验模型对复杂科学概念的理解与推理深度。研究者常以此数据集为标准，衡量模型在零样本或少样本设置下的泛化性能，尤其在需要跨领域知识整合的生物学问题上，该数据集成为判别模型是否具备类人学科素养的关键试金石。

衍生相关工作

围绕joey234/mmlu-college_biology数据集，衍生出多项影响深远的经典工作。例如，MMLU原始论文（Hendrycks et al., 2021）首次提出涵盖57个学科的多任务评估框架，而college_biology子集被后续研究用于分析模型在科学推理中的鲁棒性，如Kadavath等人（2022）基于此数据集探索语言模型在对抗性扰动下的知识稳定性。另一经典方向是Chain-of-Thought提示策略的验证，Wei等人（2022）以该数据集为例，证明逐步推理能显著提升模型在复杂生物学问题上的准确率。此外，该数据集还被用作多模态模型（如GPT-4V）在纯文本与图像结合问答场景中的对照基准。

数据集最近研究