joey234/mmlu-high_school_government_and_politics
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-high_school_government_and_politics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: fewshot_context_neg
dtype: string
splits:
- name: dev
num_bytes: 4913
num_examples: 5
- name: test
num_bytes: 867595
num_examples: 193
download_size: 106889
dataset_size: 872508
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
---
# Dataset Card for "mmlu-high_school_government_and_politics"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段名:question(问题),数据类型:字符串
- 字段名:choices(选项),序列类型:字符串
- 字段名:answer(答案),数据类型:类标签(class_label),标签映射关系为:
'0'对应A,'1'对应B,'2'对应C,'3'对应D
- 字段名:negate_openai_prompt(反向OpenAI提示词),结构体类型:
- 字段名:content(内容),数据类型:字符串
- 字段名:role(角色),数据类型:字符串
- 字段名:neg_question(反向问题),数据类型:字符串
- 字段名:fewshot_context(少样本上下文),数据类型:字符串
- 字段名:fewshot_context_neg(反向少样本上下文),数据类型:字符串
数据集划分:
- 划分名称:dev(开发集),数据字节数:4913,样本数量:5
- 划分名称:test(测试集),数据字节数:867595,样本数量:193
下载大小:106889,数据集总大小:872508
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分:dev,路径:data/dev-*
- 划分:test,路径:data/test-*
---
# "MMLU-高中政府与政治学"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
mmlu-high_school_government_and_politics
数据集特征
- question: 字符串类型
- choices: 字符串序列
- answer: 分类标签,对应选项为:
- 0: A
- 1: B
- 2: C
- 3: D
- negate_openai_prompt: 结构化数据,包含:
- content: 字符串类型
- role: 字符串类型
- neg_question: 字符串类型
- fewshot_context: 字符串类型
- fewshot_context_neg: 字符串类型
数据集划分
- dev:
- 字节数: 4913
- 示例数: 5
- test:
- 字节数: 867595
- 示例数: 193
数据集大小
- 下载大小: 106889字节
- 数据集大小: 872508字节
配置信息
- config_name: default
- data_files:
- split: dev, path: data/dev-*
- split: test, path: data/test-*
搜集汇总
数据集介绍

构建方式
该数据集源自大规模多任务语言理解基准(MMLU)中的高中政府与政治子集,旨在评估模型在人文社科领域的知识掌握程度。构建过程从MMLU原始题库中抽取与政府与政治相关的题目,涵盖美国政治体制、宪法原理、公民权利等核心主题。每条数据由问题(question)、四个选项(choices)及正确答案(answer)组成,其中答案以A、B、C、D的类别标签形式存储。为增强模型鲁棒性,数据集还引入了否定式问题(neg_question)和对应的否定提示(negate_openai_prompt),并提供了少样本学习上下文(fewshot_context)及其否定版本(fewshot_context_neg),以支持多样化的评估范式。
特点
该数据集具有鲜明的学科针对性与结构多样性。其核心特点在于不仅包含标准的多项选择题,还创新性地设计了否定式问题,通过反转提问逻辑来检验模型对政治概念的深层理解,避免模型仅依赖表面模式匹配。此外,少样本上下文与否定上下文的双重配置,使得研究者能够系统考察模型在不同提示策略下的表现差异。数据集划分为开发集(5例)和测试集(193例),规模精炼但覆盖关键知识点,适合快速迭代评估。这种精细化的设计使其成为衡量语言模型在政府与政治领域推理能力的理想基准。
使用方法
使用该数据集时,研究者可直接通过HuggingFace Datasets库加载,指定配置为'default'并选择dev或test分片。典型应用场景包括零样本评估和少样本学习:对于零样本,直接使用'question'和'choices'字段输入模型,比对预测结果与'answer'字段的标签;对于少样本,可利用'fewshot_context'字段拼接示例,或采用'fewshot_context_neg'进行否定式提示下的评估。为深入分析模型鲁棒性,可对比模型在标准问题与'neg_question'上的表现差异。数据以字符串和序列格式存储,易于适配各类预训练语言模型的输入接口,支持自动评估脚本的快速部署。
背景与挑战
背景概述
在人工智能与自然语言处理领域,大规模多任务语言理解(MMLU)基准测试的提出,标志着对语言模型知识广度和推理能力评估的一次重要飞跃。该数据集由Hendrycks等人于2020年创建,旨在系统性地衡量模型在涵盖人文、社科、理工等57个学科领域的表现。其中,joey234/mmlu-high_school_government_and_politics子集聚焦于美国高中政府与政治课程的核心知识点,包含193道测试题目与5道开发集样例,每题提供四个选项并标注标准答案。该子集不仅为评估语言模型在社会科学知识上的掌握程度提供了标准化工具,还通过引入否定式提示(neg_question)与少样本上下文(fewshot_context)等变体,推动了对抗性鲁棒性与语境理解能力的研究。其影响力体现在,它已成为检验模型是否具备结构化政治知识、逻辑推理与事实记忆能力的关键基准之一。
当前挑战
该数据集所解决的领域问题在于,传统语言理解基准往往聚焦于常识或单一领域,难以全面评估模型在特定学科如高中政府与政治中的深度知识。具体挑战包括:其一,政治学概念具有高度语境依赖性,例如对“三权分立”或“联邦制”的理解需结合美国宪法历史,模型需从有限文本中抽象出制度逻辑;其二,题目设计需避免文化偏见,确保选项的区分度与公平性,如对“选举人团”机制的考查需平衡术语精确性与可读性。在构建过程中,挑战尤为显著:数据来源需严格对应美国教育部课程标准,手动筛选与标注耗时巨大;否定式提示的生成(如翻转原题逻辑)易引入语义歧义,需反复验证以保持答案一致性;此外,少样本上下文的构造需在保留学科特性与避免信息泄漏之间取得平衡,从而确保评估的效度与信度。
常用场景
经典使用场景
在自然语言处理与知识推理的交汇领域,joey234/mmlu-high_school_government_and_politics数据集作为大规模多任务语言理解(MMLU)基准的核心子集,专为评估语言模型在高中政府与政治学科上的知识储备与逻辑推理能力而设计。该数据集包含193道测试样本及5道开发样本,每道题目均以四选一的选择题形式呈现,覆盖美国政治体制、宪法原则、公民权利与义务等核心主题。研究者通过衡量模型在零样本或少样本条件下的准确率,深入剖析其对社会学科知识的掌握程度,从而为模型在复杂结构化知识场景下的泛化能力提供关键洞见。
解决学术问题
该数据集有效解决了语言模型在细粒度学科知识评估中缺乏标准化基准的学术难题。传统评测往往聚焦于通用常识或单一领域,难以揭示模型在高中政治等结构化知识体系中的薄弱环节。通过引入负样本提示(neg_question)与OpenAI提示消融(negate_openai_prompt)等字段,数据集支持对比分析模型对知识陈述的敏感性,从而量化其推理鲁棒性。这一设计推动了模型在知识记忆、逻辑一致性及反事实推理等维度的系统性研究,为构建更具学科深度的评估范式奠定了方法论基础。
衍生相关工作
该数据集衍生出一系列突破性工作,其中最具代表性的是基于MMLU全量子集的跨学科知识图谱构建研究,以及针对政治文本的对抗性鲁棒性提升方法。研究者通过分析模型在high_school_government_and_politics子集上的错误模式,提出了知识蒸馏与反事实数据增强相结合的训练策略,显著提升了模型在复杂政治推理任务中的表现。此外,该数据集被广泛用于评估大语言模型在公民教育场景下的偏见检测与公平性校准,催生了诸如PoliticalBiasBench等专门化基准,推动了AI伦理与社会科学交叉领域的发展。
以上内容由遇见数据集搜集并总结生成



