five

joey234/mmlu-college_chemistry

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-college_chemistry
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: fewshot_context_neg dtype: string splits: - name: dev num_bytes: 4914 num_examples: 5 - name: test num_bytes: 363948 num_examples: 100 download_size: 72165 dataset_size: 368862 configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* --- # Dataset Card for "mmlu-college_chemistry" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征字段: - 字段名:question(问题),数据类型:字符串 - 字段名:choices(选项),数据类型:字符串序列 - 字段名:answer(答案),数据类型为类别标签(class_label),其类别名称映射规则为:'0'对应'A'、'1'对应'B'、'2'对应'C'、'3'对应'D' - 字段名:negate_openai_prompt(否定式OpenAI提示词),为结构体类型,包含以下子字段: - 子字段名:content(内容),数据类型:字符串 - 子字段名:role(角色),数据类型:字符串 - 字段名:neg_question(否定式问题),数据类型:字符串 - 字段名:fewshot_context(少样本(Few-shot)上下文),数据类型:字符串 - 字段名:fewshot_context_neg(否定式少样本上下文),数据类型:字符串 数据拆分: - 拆分名称:dev(开发集),字节大小:4914,样本数量:5 - 拆分名称:test(测试集),字节大小:363948,样本数量:100 下载大小:72165字节 数据集总大小:368862字节 配置项: - 配置名称:default(默认配置),对应数据文件: - 拆分dev对应数据路径:data/dev-* - 拆分test对应数据路径:data/test-* --- # 「MMLU大学化学」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总

数据集概述

数据集名称

mmlu-college_chemistry

数据特征

  • question: 数据类型 - string
  • choices: 数据类型 - sequence of string
  • answer: 数据类型 - class_label with names:
    • 0: A
    • 1: B
    • 2: C
    • 3: D
  • negate_openai_prompt: 结构化数据类型,包含:
    • content: 数据类型 - string
    • role: 数据类型 - string
  • neg_question: 数据类型 - string
  • fewshot_context: 数据类型 - string
  • fewshot_context_neg: 数据类型 - string

数据分割

  • dev:
    • 字节数: 4914
    • 示例数: 5
  • test:
    • 字节数: 363948
    • 示例数: 100

数据集大小

  • 下载大小: 72165 字节
  • 数据集总大小: 368862 字节

配置文件

  • config_name: default
  • data_files:
    • dev: 路径 - data/dev-*
    • test: 路径 - data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在化学教育评估领域,该数据集源自MMLU基准测试的大学化学子集,其构建过程体现了严谨的学术筛选。原始题目经过系统性的收集与整理,确保了知识点的全面覆盖与难度梯度。开发团队进一步引入了数据增强技术,例如通过生成否定式问题(neg_question)来丰富样本的多样性,并精心设计了包含上下文示例(fewshot_context)的结构,以支持少样本学习场景。数据被划分为开发集(dev)与测试集(test),为模型训练与评估提供了标准化的基准框架。
使用方法
使用本数据集时,研究者通常将其应用于大型语言模型在专业化学知识上的能力评测。开发集可用于进行初步的提示工程或超参数调试,而测试集则用于最终的性能度量。通过加载标准化的数据分割,可以便捷地计算模型在多项选择题上的准确率。数据集内置的少样本上下文与否定式变体,支持探索模型在上下文学习及对抗性测试下的表现,为化学领域的AI评估研究提供了即用且可靠的实验基础。
背景与挑战
背景概述
在人工智能与教育科学交叉融合的浪潮中,大规模多任务语言理解(MMLU)基准应运而生,旨在系统评估模型在跨学科知识上的推理与应用能力。作为其子集,joey234/mmlu-college_chemistry数据集聚焦于大学化学领域,由研究社区于近年构建,核心目标在于检验语言模型对高等化学概念、原理及问题求解的掌握程度。该数据集通过精心设计的多项选择题形式,模拟了学术环境下的知识评估场景,为推进教育智能化、特别是学科专用模型的性能优化提供了关键数据支撑,显著影响了化学教育技术与自适应学习系统的发展轨迹。
当前挑战
该数据集致力于应对化学学科知识建模的固有复杂性挑战,高等化学涵盖从分子结构到反应动力学的多层次抽象概念,要求模型不仅需记忆事实性知识,更须进行逻辑推理与跨概念关联。在构建过程中,挑战主要源于高质量试题的筛选与标注,化学问题的专业性要求领域专家深度参与,以确保试题的科学准确性与难度梯度合理性;同时,数据集的平衡性与代表性亦需审慎考量,避免因学科分支覆盖不均而导致评估偏差,这些因素共同构成了数据集开发与迭代中的核心难点。
常用场景
经典使用场景
在化学教育评估领域,mmlu-college_chemistry数据集常被用于衡量大型语言模型在专业化学知识上的掌握程度。该数据集通过多项选择题形式,覆盖了大学化学课程的核心概念,为研究者提供了标准化的测试平台。模型在此数据集上的表现能够直观反映其理解复杂化学原理和解决学科特定问题的能力,成为评估模型学术水平的重要基准。
解决学术问题
该数据集有效解决了人工智能在专业学科知识评估中缺乏标准化基准的学术难题。通过提供结构化的化学问题集合,它使研究者能够系统性地检验模型对化学热力学、有机反应机理等专业知识的掌握深度。这种评估不仅推动了模型在科学推理能力上的进步,还为跨学科的人工智能研究提供了可靠的量化依据,促进了教育技术与认知科学的交叉融合。
实际应用
在实际应用层面,该数据集为智能教育系统的开发提供了关键支持。基于其构建的评估框架能够帮助在线教育平台诊断学生的学习薄弱环节,并优化个性化辅导方案。同时,化学研究机构可利用该数据集训练专业辅助工具,加速文献调研和实验设计流程,提升科研效率。这些应用展现了人工智能在专业领域赋能的实际价值。
数据集最近研究
最新研究方向
在化学教育智能化评估领域,mmlu-college_chemistry数据集作为大学化学知识的多选题基准,正推动着大型语言模型在专业学科理解能力上的前沿探索。当前研究聚焦于利用该数据集评估模型对复杂化学概念的逻辑推理与知识整合效能,特别是在量子化学、热力学及有机反应机理等核心主题上的表现。热点事件包括结合负向提示与少样本学习策略,以增强模型在对抗性测试中的鲁棒性,从而揭示其认知边界。这一进展不仅深化了人工智能在科学教育中的应用潜力,也为跨学科知识表示与可解释性研究提供了关键数据支撑,促进了教育技术与化学研究的融合创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作