joey234/mmlu-high_school_chemistry
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-high_school_chemistry
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: fewshot_context_neg
dtype: string
splits:
- name: dev
num_bytes: 4673
num_examples: 5
- name: test
num_bytes: 538659
num_examples: 203
download_size: 97264
dataset_size: 543332
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
---
# Dataset Card for "mmlu-high_school_chemistry"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称:question(问题),数据类型:字符串
- 名称:choices(选项),数据类型:字符串序列
- 名称:answer(答案),数据类型:类标签(class_label),其名称映射规则为:'0'对应A,'1'对应B,'2'对应C,'3'对应D
- 名称:negate_openai_prompt(否定式OpenAI提示词),为结构体类型,包含:
- content(内容):字符串类型
- role(角色):字符串类型
- 名称:neg_question(否定式问题),数据类型:字符串
- 名称:fewshot_context(少样本上下文),数据类型:字符串
- 名称:fewshot_context_neg(否定式少样本上下文),数据类型:字符串
数据集划分:
- 名称:dev(开发集),字节大小:4673,样本数量:5
- 名称:test(测试集),字节大小:538659,样本数量:203
下载大小:97264 字节
数据集总大小:543332 字节
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分dev:路径为data/dev-*
- 划分test:路径为data/test-*
# 「MMLU-高中化学」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集特征
- question: 数据类型为字符串。
- choices: 数据类型为字符串序列。
- answer: 数据类型为分类标签,具体标签为:
- 0: A
- 1: B
- 2: C
- 3: D
- negate_openai_prompt: 结构化数据,包含以下字段:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- neg_question: 数据类型为字符串。
- fewshot_context: 数据类型为字符串。
- fewshot_context_neg: 数据类型为字符串。
数据集分割
- dev:
- 字节数: 4673
- 示例数: 5
- test:
- 字节数: 538659
- 示例数: 203
数据集大小
- 下载大小: 97264 字节
- 数据集大小: 543332 字节
配置文件
- config_name: default
- data_files:
- dev: 路径为
data/dev-* - test: 路径为
data/test-*
- dev: 路径为
搜集汇总
数据集介绍

构建方式
在化学教育评估领域,该数据集源自MMLU基准测试的高中化学子集,其构建过程遵循严谨的学术标准。数据通过精心设计的多项选择题形式呈现,每道题目均附带四个选项及标准答案,确保了评估的客观性与一致性。开发集与测试集的划分,为模型性能的验证提供了可靠的基础,整体结构旨在模拟真实学术环境下的知识考察。
特点
该数据集的核心特征在于其全面的化学知识覆盖,题目设计深入高中化学的各个关键模块,如化学反应、物质结构等。独特的否定提示与少数样本上下文字段,为研究模型在对抗性情境下的表现提供了丰富素材。数据格式的标准化与清晰的标签体系,进一步提升了其在机器学习实验中的实用性与可重复性。
使用方法
使用者可借助该数据集对语言模型进行化学知识理解能力的系统性评估。通过加载开发集进行初步调优,再于测试集上验证模型性能,能够有效衡量其推理与知识应用水平。结合提供的否定提示与上下文信息,研究者可深入探究模型在复杂或误导性输入下的鲁棒性,推动教育技术领域的算法进步。
背景与挑战
背景概述
在人工智能与教育交叉领域,大规模多任务语言理解(MMLU)数据集自2020年由Dan Hendrycks等研究人员提出以来,已成为评估模型跨学科知识掌握能力的重要基准。作为其子集,joey234/mmlu-high_school_chemistry专注于高中化学学科,旨在检验模型对基础化学概念、反应原理及实验现象的理解水平。该数据集由社区贡献者构建,通过涵盖化学核心知识点的多项选择题,推动了语言模型在科学教育辅助、自动化答疑等应用场景的发展,为模型学科素养评估提供了标准化工具。
当前挑战
该数据集首要挑战在于准确评估模型对化学学科深层逻辑的把握,化学问题常涉及抽象概念推理与定量计算,要求模型超越表面文本匹配,实现原理性理解。构建过程中,需确保题目涵盖化学知识体系的完整性,同时避免偏差或歧义,这对领域专家标注与质量控制提出较高要求。此外,化学知识的动态演进性也带来数据时效性维护的挑战,需持续更新以反映学科发展前沿。
常用场景
经典使用场景
在化学教育评估领域,该数据集作为一项标准化工具,广泛用于衡量模型对高中化学知识的掌握程度。其经典使用场景聚焦于多选问答任务,通过涵盖化学原理、反应机制及物质性质等核心主题,为研究者提供了系统性的基准测试平台。这种设计不仅促进了模型在学科知识理解上的深度探索,还推动了教育技术与人工智能的交叉融合。
解决学术问题
该数据集有效应对了人工智能模型在专业学科知识评估中的挑战,解决了传统基准测试缺乏学科深度的问题。它为研究者提供了量化模型化学认知能力的可靠途径,从而助力于知识推理、逻辑判断等核心学术问题的探索。其意义在于构建了连接基础教育与前沿技术的桥梁,对推动教育智能化发展产生了深远影响。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于知识增强的模型微调策略、跨学科知识迁移方法以及对抗性样本生成技术。这些工作进一步拓展了数据集在模型鲁棒性测试、教育公平性评估等领域的应用边界,为后续的学科专用基准构建奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



