joey234/mmlu-high_school_us_history
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-high_school_us_history
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: fewshot_context_neg
dtype: string
splits:
- name: dev
num_bytes: 19435
num_examples: 5
- name: test
num_bytes: 1267024
num_examples: 204
download_size: 368803
dataset_size: 1286459
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
---
# Dataset Card for "mmlu-high_school_us_history"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
mmlu-high_school_us_history
数据集特征
- question: 数据类型为字符串。
- choices: 数据类型为字符串序列。
- answer: 数据类型为分类标签,标签名称为:
- 0: A
- 1: B
- 2: C
- 3: D
- negate_openai_prompt: 结构化数据,包含:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- neg_question: 数据类型为字符串。
- fewshot_context: 数据类型为字符串。
- fewshot_context_neg: 数据类型为字符串。
数据集分割
- dev: 包含5个示例,占用19435字节。
- test: 包含204个示例,占用1267024字节。
数据集大小
- 下载大小: 368803字节
- 数据集大小: 1286459字节
配置文件
- config_name: default
- data_files:
- split: dev, 路径: data/dev-*
- split: test, 路径: data/test-*
搜集汇总
数据集介绍

构建方式
在历史教育评估领域,该数据集源自MMLU基准测试的美国高中历史子集,其构建过程体现了严谨的学术筛选。开发团队从权威教育资料和标准化考试中提取核心知识,形成涵盖关键历史事件、人物与概念的单项选择题库。每道题目均配有四个选项及标准答案,并经过结构化标注,确保了评估内容的代表性与准确性。数据被划分为开发集与测试集,为模型性能的可靠验证奠定了基础。
特点
该数据集的特点在于其深度聚焦美国高中历史课程的核心知识体系,题目设计紧密贴合教育标准。除了常规的问题、选项与答案字段,它还创新性地引入了否定性提示与上下文示例,如“negate_openai_prompt”和“fewshot_context”,这些元数据为探究模型在对抗性或少样本场景下的推理能力提供了独特视角。其结构清晰,规模适中,特别适合于评估语言模型在特定学科领域的知识掌握与逻辑应用。
使用方法
使用该数据集时,研究者可将其直接应用于模型的知识评估与推理能力测试。典型流程是加载开发集进行初步验证或提示工程调整,随后在测试集上执行正式评估。通过解析‘question’、‘choices’和‘answer’字段,可进行标准的多项选择题测试;而利用‘negate_openai_prompt’或‘fewshot_context’等扩展字段,则能设计更复杂的实验,如检验模型对误导性信息的鲁棒性或其在少量示例下的学习性能,从而全面衡量模型在历史学科上的表现。
背景与挑战
背景概述
在人工智能与教育评估交叉领域,大规模多任务语言理解(MMLU)基准测试已成为衡量模型知识广度与推理能力的重要标尺。作为其子集,joey234/mmlu-high_school_us_history数据集专注于美国高中历史学科,由研究社区于近年构建,旨在评估语言模型在特定学科知识上的掌握程度。该数据集通过结构化选择题形式,考察模型对美国历史事件、人物与脉络的理解,其创建呼应了通用人工智能向领域深度知识迁移的研究趋势,为教育智能化与历史知识计算提供了关键数据支撑。
当前挑战
该数据集核心挑战在于如何精准评估模型对复杂历史语境与因果关系的理解能力。历史学科问题往往涉及时间顺序、事件关联及多维度解释,要求模型超越表面文本匹配,进行深层次推理。构建过程中,挑战体现在高质量历史题目的筛选与标注上,需确保题目涵盖关键历史阶段,同时避免文化偏见或表述歧义。此外,数据集中包含的否定性问题与少样本上下文设计,进一步增加了对模型鲁棒性与泛化能力的测试难度,要求模型在正反例对比中保持逻辑一致性。
常用场景
经典使用场景
在自然语言处理与教育技术领域,joey234/mmlu-high_school_us_history数据集作为MMLU基准的关键组成部分,其经典使用场景聚焦于评估大型语言模型在美国高中历史知识方面的理解和推理能力。该数据集通过多项选择题形式,模拟了标准化考试环境,为研究者提供了衡量模型在特定学科领域知识掌握程度的标准化工具。模型在此数据集上的表现,直接反映了其从文本中提取、整合和应用历史事实与概念的能力,成为推动智能教育系统发展的核心测试平台。
实际应用
在实际应用层面,该数据集为开发智能辅导系统和自适应学习平台提供了关键数据支撑。教育科技公司可利用此类评估结果,优化其产品在历史学科的内容生成与答疑准确性。同时,它也能辅助课程设计者分析知识点的常见认知误区,从而设计更具针对性的教学材料。在学术出版与标准化测试领域,该数据集还可作为验证教育内容AI辅助工具有效性的参考标准。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在知识密集型NLP模型的评测与优化方向。例如,多项研究利用其构建了历史知识领域的链式思维提示策略,显著提升了复杂历史事件的推理准确性。同时,它也被整合进更广泛的MMLU多任务评估框架,用于分析模型跨学科的知识迁移能力。这些工作不仅深化了对模型知识边界理解,也催生了如知识增强微调、领域适应性预训练等一系列创新方法。
以上内容由遇见数据集搜集并总结生成



