five

mmlu_es|知识测试数据集|多领域评估数据集

收藏
huggingface2024-10-23 更新2024-12-12 收录
知识测试
多领域评估
下载链接:
https://huggingface.co/datasets/neuralmagic/mmlu_es
下载链接
链接失效反馈
资源简介:
该数据集包含多个领域的测试数据,涵盖道德情景、社会学、病毒学、世界宗教、营养学、抽象代数、解剖学、专业法律、大学医学、哲学、杂项、天文学、美国外交政策、专业心理学、初等数学、安全研究、专业医学、专业会计、高中美国历史、高中世界历史、法理学、逻辑谬误、大学物理、概念物理、计量经济学、计算机安全、高中欧洲历史、临床知识、大学生物学、大学化学、大学计算机科学、大学数学、史前史、道德争议、医学遗传学、公共关系、高中心理学、高中统计学、形式逻辑、高中生物学、高中化学、电气工程、高中数学、高中计算机科学、高中地理、高中政府与政治、高中微观经济学、商业伦理、人类衰老、人类性行为、全球事实、高中宏观经济学、国际法、高中物理、机器学习、管理和市场营销等主题。
提供机构:
Neural Magic
创建时间:
2024-10-23
原始信息汇总

数据集概述

数据集配置

道德场景

  • 配置名称: moral_scenarios
  • 数据文件:
    • 分割: test
    • 路径: moral_scenarios.parquet

社会学

  • 配置名称: sociology
  • 数据文件:
    • 分割: test
    • 路径: sociology.parquet

病毒学

  • 配置名称: virology
  • 数据文件:
    • 分割: test
    • 路径: virology.parquet

世界宗教

  • 配置名称: world_religions
  • 数据文件:
    • 分割: test
    • 路径: world_religions.parquet

营养学

  • 配置名称: nutrition
  • 数据文件:
    • 分割: test
    • 路径: nutrition.parquet

抽象代数

  • 配置名称: abstract_algebra
  • 数据文件:
    • 分割: test
    • 路径: abstract_algebra.parquet

解剖学

  • 配置名称: anatomy
  • 数据文件:
    • 分割: test
    • 路径: anatomy.parquet

专业法律

  • 配置名称: professional_law
  • 数据文件:
    • 分割: test
    • 路径: professional_law.parquet

大学医学

  • 配置名称: college_medicine
  • 数据文件:
    • 分割: test
    • 路径: college_medicine.parquet

哲学

  • 配置名称: philosophy
  • 数据文件:
    • 分割: test
    • 路径: philosophy.parquet

杂项

  • 配置名称: miscellaneous
  • 数据文件:
    • 分割: test
    • 路径: miscellaneous.parquet

天文学

  • 配置名称: astronomy
  • 数据文件:
    • 分割: test
    • 路径: astronomy.parquet

美国外交政策

  • 配置名称: us_foreign_policy
  • 数据文件:
    • 分割: test
    • 路径: us_foreign_policy.parquet

专业心理学

  • 配置名称: professional_psychology
  • 数据文件:
    • 分割: test
    • 路径: professional_psychology.parquet

初等数学

  • 配置名称: elementary_mathematics
  • 数据文件:
    • 分割: test
    • 路径: elementary_mathematics.parquet

安全研究

  • 配置名称: security_studies
  • 数据文件:
    • 分割: test
    • 路径: security_studies.parquet

专业医学

  • 配置名称: professional_medicine
  • 数据文件:
    • 分割: test
    • 路径: professional_medicine.parquet

专业会计

  • 配置名称: professional_accounting
  • 数据文件:
    • 分割: test
    • 路径: professional_accounting.parquet

高中美国历史

  • 配置名称: high_school_us_history
  • 数据文件:
    • 分割: test
    • 路径: high_school_us_history.parquet

高中世界历史

  • 配置名称: high_school_world_history
  • 数据文件:
    • 分割: test
    • 路径: high_school_world_history.parquet

法理学

  • 配置名称: jurisprudence
  • 数据文件:
    • 分割: test
    • 路径: jurisprudence.parquet

逻辑谬误

  • 配置名称: logical_fallacies
  • 数据文件:
    • 分割: test
    • 路径: logical_fallacies.parquet

大学物理

  • 配置名称: college_physics
  • 数据文件:
    • 分割: test
    • 路径: college_physics.parquet

概念物理

  • 配置名称: conceptual_physics
  • 数据文件:
    • 分割: test
    • 路径: conceptual_physics.parquet

计量经济学

  • 配置名称: econometrics
  • 数据文件:
    • 分割: test
    • 路径: econometrics.parquet

计算机安全

  • 配置名称: computer_security
  • 数据文件:
    • 分割: test
    • 路径: computer_security.parquet

高中欧洲历史

  • 配置名称: high_school_european_history
  • 数据文件:
    • 分割: test
    • 路径: high_school_european_history.parquet

临床知识

  • 配置名称: clinical_knowledge
  • 数据文件:
    • 分割: test
    • 路径: clinical_knowledge.parquet

大学生物

  • 配置名称: college_biology
  • 数据文件:
    • 分割: test
    • 路径: college_biology.parquet

大学化学

  • 配置名称: college_chemistry
  • 数据文件:
    • 分割: test
    • 路径: college_chemistry.parquet

大学计算机科学

  • 配置名称: college_computer_science
  • 数据文件:
    • 分割: test
    • 路径: college_computer_science.parquet

大学数学

  • 配置名称: college_mathematics
  • 数据文件:
    • 分割: test
    • 路径: college_mathematics.parquet

史前史

  • 配置名称: prehistory
  • 数据文件:
    • 分割: test
    • 路径: prehistory.parquet

道德争议

  • 配置名称: moral_disputes
  • 数据文件:
    • 分割: test
    • 路径: moral_disputes.parquet

医学遗传学

  • 配置名称: medical_genetics
  • 数据文件:
    • 分割: test
    • 路径: medical_genetics.parquet

公共关系

  • 配置名称: public_relations
  • 数据文件:
    • 分割: test
    • 路径: public_relations.parquet

高中心理学

  • 配置名称: high_school_psychology
  • 数据文件:
    • 分割: test
    • 路径: high_school_psychology.parquet

高中统计学

  • 配置名称: high_school_statistics
  • 数据文件:
    • 分割: test
    • 路径: high_school_statistics.parquet

形式逻辑

  • 配置名称: formal_logic
  • 数据文件:
    • 分割: test
    • 路径: formal_logic.parquet

高中生物

  • 配置名称: high_school_biology
  • 数据文件:
    • 分割: test
    • 路径: high_school_biology.parquet

高中化学

  • 配置名称: high_school_chemistry
  • 数据文件:
    • 分割: test
    • 路径: high_school_chemistry.parquet

电气工程

  • 配置名称: electrical_engineering
  • 数据文件:
    • 分割: test
    • 路径: electrical_engineering.parquet

高中数学

  • 配置名称: high_school_mathematics
  • 数据文件:
    • 分割: test
    • 路径: high_school_mathematics.parquet

高中计算机科学

  • 配置名称: high_school_computer_science
  • 数据文件:
    • 分割: test
    • 路径: high_school_computer_science.parquet

高中地理

  • 配置名称: high_school_geography
  • 数据文件:
    • 分割: test
    • 路径: high_school_geography.parquet

高中政府与政治

  • 配置名称: high_school_government_and_politics
  • 数据文件:
    • 分割: test
    • 路径: high_school_government_and_politics.parquet

高中微观经济学

  • 配置名称: high_school_microeconomics
  • 数据文件:
    • 分割: test
    • 路径: high_school_microeconomics.parquet

商业伦理

  • 配置名称: business_ethics
  • 数据文件:
    • 分割: test
    • 路径: business_ethics.parquet

人类衰老

  • 配置名称: human_aging
  • 数据文件:
    • 分割: test
    • 路径: human_aging.parquet

人类性行为

  • 配置名称: human_sexuality
  • 数据文件:
    • 分割: test
    • 路径: human_sexuality.parquet

全球事实

  • 配置名称: global_facts
  • 数据文件:
    • 分割: test
    • 路径: global_facts.parquet

高中宏观经济学

  • 配置名称: high_school_macroeconomics
  • 数据文件:
    • 分割: test
    • 路径: high_school_macroeconomics.parquet

国际法

  • 配置名称: international_law
  • 数据文件:
    • 分割: test
    • 路径: international_law.parquet

高中物理

  • 配置名称: high_school_physics
  • 数据文件:
    • 分割: test
    • 路径: high_school_physics.parquet

机器学习

  • 配置名称: machine_learning
  • 数据文件:
    • 分割: test
    • 路径: machine_learning.parquet

管理学

  • 配置名称: management
  • 数据文件:
    • 分割: test
    • 路径: management.parquet

市场营销

  • 配置名称: marketing
  • 数据文件:
    • 分割: test
    • 路径: marketing.parquet
AI搜集汇总
数据集介绍
main_image_url
构建方式
mmlu_es数据集通过多领域知识的整合,构建了一个涵盖广泛学科的综合测试集。每个学科的数据文件均以parquet格式存储,确保了数据的高效读取与处理。数据集的构建过程严格遵循学科分类标准,涵盖了从基础科学到社会科学、从专业领域到通识教育的多个维度,确保了数据的全面性与代表性。
使用方法
mmlu_es数据集适用于多领域的模型测试与评估,用户可通过加载特定学科的parquet文件进行针对性分析。数据集的使用方法简单直观,支持直接读取与处理,便于研究者快速开展实验。通过结合不同学科的数据,用户能够全面评估模型在跨领域知识理解与推理能力上的表现,为模型优化提供有力支持。
背景与挑战
背景概述
mmlu_es数据集是一个涵盖多学科知识的多选题测试数据集,旨在评估模型在广泛学科领域中的理解和推理能力。该数据集由多个子集构成,涉及道德场景、社会学、病毒学、世界宗教、营养学、抽象代数、解剖学、专业法律、大学医学、哲学、天文学、美国外交政策、专业心理学、初等数学、安全研究、专业医学、专业会计、美国高中历史、世界高中历史、法理学、逻辑谬误、大学物理、概念物理、计量经济学、计算机安全、欧洲高中历史、临床知识、大学生物学、大学化学、大学计算机科学、大学数学、史前史、道德争议、医学遗传学、公共关系、高中心理学、高中统计学、形式逻辑、高中生物学、高中化学、电气工程、高中数学、高中计算机科学、高中地理、高中政府与政治、高中微观经济学、商业伦理、人类衰老、人类性行为、全球事实、高中宏观经济学、国际法、高中物理、机器学习、管理和市场营销等领域。该数据集的创建旨在为自然语言处理模型提供一个全面的测试平台,以评估其在多学科知识中的表现。
当前挑战
mmlu_es数据集面临的挑战主要体现在两个方面。首先,该数据集涵盖的学科范围极为广泛,从基础科学到社会科学,再到专业领域,每个学科都有其独特的知识体系和逻辑结构,这对模型的跨学科理解和推理能力提出了极高的要求。其次,在数据集的构建过程中,如何确保每个学科领域的数据质量和代表性是一个巨大的挑战。不同学科的知识更新速度不同,且部分领域的专业知识获取难度较大,如何在有限资源下确保数据的准确性和时效性,是数据集构建过程中需要克服的关键问题。此外,数据集的多样性和复杂性也对模型的泛化能力提出了更高的要求,如何在多学科背景下实现模型的精准推理和高效学习,是当前研究中的一大难题。
常用场景
经典使用场景
在跨学科研究领域,mmlu_es数据集被广泛应用于评估和提升模型在多个学科中的知识理解能力。其涵盖的学科范围从基础科学到社会科学,再到专业领域,为研究者提供了一个全面的测试平台。通过该数据集,研究者能够深入分析模型在不同知识领域的表现,进而优化模型的泛化能力和适应性。
解决学术问题
mmlu_es数据集有效解决了模型在跨学科知识理解中的局限性问题。传统模型往往在单一领域表现优异,但在面对多学科交叉问题时表现欠佳。该数据集通过提供多样化的学科测试数据,帮助研究者识别模型的薄弱环节,推动模型在复杂知识场景下的性能提升,为跨学科研究提供了重要的数据支持。
实际应用
在实际应用中,mmlu_es数据集被广泛用于教育技术、智能助手和专业咨询系统的开发。例如,在教育技术领域,该数据集可用于设计智能辅导系统,帮助学生更好地掌握多学科知识。在智能助手领域,数据集的应用提升了助手在回答复杂跨学科问题时的准确性和可靠性,为用户提供更高质量的服务。
数据集最近研究
最新研究方向
在人工智能与多学科交叉领域,mmlu_es数据集以其广泛覆盖的学科内容,成为评估模型跨领域知识理解能力的重要工具。近年来,随着大语言模型在复杂任务中的表现日益突出,研究者们开始关注如何利用mmlu_es数据集中的多样化主题,如道德场景、社会学、病毒学等,来测试模型在特定领域的推理与判断能力。特别是在伦理与法律相关的场景中,该数据集为模型提供了丰富的测试案例,帮助研究者深入探讨人工智能在道德决策中的应用潜力。此外,随着全球对人工智能伦理问题的关注升温,mmlu_es数据集在推动相关研究方面发挥了重要作用,为构建更加公平、透明的AI系统提供了数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

NSL-KDD

NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本,解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件,以及包含数据集列名的文件。

github 收录