joey234/mmlu-high_school_psychology
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-high_school_psychology
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: fewshot_context_neg
dtype: string
splits:
- name: dev
num_bytes: 5820
num_examples: 5
- name: test
num_bytes: 2627471
num_examples: 545
download_size: 247537
dataset_size: 2633291
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
---
# Dataset Card for "mmlu-high_school_psychology"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段名:question(问题),数据类型:字符串
- 字段名:choices(选项集),数据类型:字符串序列
- 字段名:answer(答案),数据类型:类别标签,标签映射关系:
'0' 对应 A
'1' 对应 B
'2' 对应 C
'3' 对应 D
- 字段名:negate_openai_prompt(否定式OpenAI提示词),结构体类型:
- 字段名:content(内容),数据类型:字符串
- 字段名:role(角色),数据类型:字符串
- 字段名:neg_question(否定式问题),数据类型:字符串
- 字段名:fewshot_context(少样本上下文),数据类型:字符串
- 字段名:fewshot_context_neg(否定式少样本上下文),数据类型:字符串
数据划分:
- 划分名称:dev(开发集),字节数:5820,样本数:5
- 划分名称:test(测试集),字节数:2627471,样本数:545
下载大小:247537
数据集总大小:2633291
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分dev(开发集):路径为 data/dev-*
- 划分test(测试集):路径为 data/test-*
---
# 「MMLU-高中心理学」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
mmlu-high_school_psychology
数据集特征
- question: 数据类型 - 字符串
- choices: 数据类型 - 序列字符串
- answer: 数据类型 - 分类标签,标签名称为 A, B, C, D
- negate_openai_prompt: 结构化数据,包含以下字段:
- content: 数据类型 - 字符串
- role: 数据类型 - 字符串
- neg_question: 数据类型 - 字符串
- fewshot_context: 数据类型 - 字符串
- fewshot_context_neg: 数据类型 - 字符串
数据集分割
- dev:
- 字节数: 5820
- 示例数: 5
- test:
- 字节数: 2627471
- 示例数: 545
数据集大小
- 下载大小: 247537 字节
- 数据集总大小: 2633291 字节
配置文件
- config_name: default
- data_files:
- dev: 路径 - data/dev-*
- test: 路径 - data/test-*
搜集汇总
数据集介绍

构建方式
在心理学教育评估领域,该数据集源自大规模多任务语言理解(MMLU)项目的高中心理学子集,其构建过程体现了严谨的学术规范。数据通过精心设计的标准化测试题目汇编而成,每道题目均包含问题陈述、四个备选选项及对应的正确答案标签。开发集与测试集的划分遵循机器学习评估惯例,分别包含5个和545个样本,确保了模型验证与最终评估的独立性。数据采集与标注流程旨在覆盖高中心理学核心概念,为模型的知识掌握程度提供了可靠的度量基准。
特点
该数据集的核心特征在于其结构化的评估框架与丰富的元数据支持。每个数据样本不仅提供了标准的多项选择题形式,还附带了用于提示工程的关键字段,如经过设计的提示模板和角色定义。特别值得注意的是,数据集包含了原始问题及其经过否定的变体,这为探究模型对语义反转的鲁棒性创造了条件。此外,提供的少量示例上下文及其否定版本,为研究上下文学习与对抗性干扰下的性能变化提供了便利。这种多层次、多角度的数据组织方式,使其超越了简单的问答对集合,成为一个用于深度分析语言模型理解与推理能力的综合工具。
使用方法
在应用层面,该数据集主要用于评估语言模型在特定学科知识上的理解和推理能力。使用者可加载开发集进行超参数调优或提示词工程探索,随后在独立的测试集上进行最终性能评估。典型的使用流程涉及将问题、选项及可能的上下文信息组合成符合模型输入格式的提示,继而获取模型的预测输出并与标准答案比对。数据集内嵌的否定问题和否定上下文字段,特别适用于进行对抗性测试或分析模型在面对语义干扰时的稳定性。通过这种方式,研究者能够系统性地量化模型在高中心理学领域的知识广度、深度以及逻辑一致性。
背景与挑战
背景概述
在人工智能与认知科学交叉领域,大规模多任务语言理解(MMLU)基准测试已成为评估模型综合知识能力的重要工具。该数据集作为MMLU的子集,专注于高中心理学知识,由研究团队于近年构建,旨在探究语言模型在特定学科领域的深度理解与推理能力。其核心研究问题聚焦于模型如何掌握心理学基础概念,并应用于复杂情境分析,对推动教育智能化与认知模拟研究具有显著影响力。
当前挑战
该数据集旨在解决心理学知识评估中的挑战,即如何准确衡量模型对抽象概念(如认知偏差、行为理论)的理解与应用能力,这要求模型超越表面文本匹配,进行深层逻辑推理。构建过程中,挑战包括确保题目涵盖心理学核心知识体系,同时避免文化偏见,以及设计多样化的选择题格式以反映真实教育场景的复杂性。
常用场景
经典使用场景
在心理学与人工智能交叉领域,该数据集作为MMLU基准的重要组成部分,为评估模型在高中心理学知识上的理解和推理能力提供了标准化的测试平台。其经典使用场景集中于多选问答任务,通过涵盖认知、发展、社会心理学等核心主题的题目,系统检验模型对复杂概念和理论的应用水平。这一场景不仅模拟了人类学习过程中的知识评估,还推动了模型在结构化知识领域的性能优化。
解决学术问题
该数据集有效解决了人工智能领域中对模型学科知识深度评估的难题,填补了心理学专业能力量化测试的空白。通过提供高质量、领域特定的标注数据,它支持研究者探究模型在专业概念理解、逻辑推理和抗干扰能力上的局限,为改进模型的知识表示和推理机制提供了实证基础。其意义在于将心理学教育标准引入AI评估体系,促进了跨学科研究方法的发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在知识增强的语言模型优化和跨任务迁移学习上。研究者利用其构建了针对心理学领域的微调策略,如指令调整和思维链提示工程,显著提升了模型在专业问答中的准确性。此外,该数据集还催生了多项关于模型偏差分析和领域适应性的研究,为MMLU基准在其他学科的应用提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



