mmlu_es|知识测试数据集|多领域评估数据集
收藏数据集概述
数据集配置
道德场景
- 配置名称: moral_scenarios
- 数据文件:
- 分割: test
- 路径: moral_scenarios.parquet
社会学
- 配置名称: sociology
- 数据文件:
- 分割: test
- 路径: sociology.parquet
病毒学
- 配置名称: virology
- 数据文件:
- 分割: test
- 路径: virology.parquet
世界宗教
- 配置名称: world_religions
- 数据文件:
- 分割: test
- 路径: world_religions.parquet
营养学
- 配置名称: nutrition
- 数据文件:
- 分割: test
- 路径: nutrition.parquet
抽象代数
- 配置名称: abstract_algebra
- 数据文件:
- 分割: test
- 路径: abstract_algebra.parquet
解剖学
- 配置名称: anatomy
- 数据文件:
- 分割: test
- 路径: anatomy.parquet
专业法律
- 配置名称: professional_law
- 数据文件:
- 分割: test
- 路径: professional_law.parquet
大学医学
- 配置名称: college_medicine
- 数据文件:
- 分割: test
- 路径: college_medicine.parquet
哲学
- 配置名称: philosophy
- 数据文件:
- 分割: test
- 路径: philosophy.parquet
杂项
- 配置名称: miscellaneous
- 数据文件:
- 分割: test
- 路径: miscellaneous.parquet
天文学
- 配置名称: astronomy
- 数据文件:
- 分割: test
- 路径: astronomy.parquet
美国外交政策
- 配置名称: us_foreign_policy
- 数据文件:
- 分割: test
- 路径: us_foreign_policy.parquet
专业心理学
- 配置名称: professional_psychology
- 数据文件:
- 分割: test
- 路径: professional_psychology.parquet
初等数学
- 配置名称: elementary_mathematics
- 数据文件:
- 分割: test
- 路径: elementary_mathematics.parquet
安全研究
- 配置名称: security_studies
- 数据文件:
- 分割: test
- 路径: security_studies.parquet
专业医学
- 配置名称: professional_medicine
- 数据文件:
- 分割: test
- 路径: professional_medicine.parquet
专业会计
- 配置名称: professional_accounting
- 数据文件:
- 分割: test
- 路径: professional_accounting.parquet
高中美国历史
- 配置名称: high_school_us_history
- 数据文件:
- 分割: test
- 路径: high_school_us_history.parquet
高中世界历史
- 配置名称: high_school_world_history
- 数据文件:
- 分割: test
- 路径: high_school_world_history.parquet
法理学
- 配置名称: jurisprudence
- 数据文件:
- 分割: test
- 路径: jurisprudence.parquet
逻辑谬误
- 配置名称: logical_fallacies
- 数据文件:
- 分割: test
- 路径: logical_fallacies.parquet
大学物理
- 配置名称: college_physics
- 数据文件:
- 分割: test
- 路径: college_physics.parquet
概念物理
- 配置名称: conceptual_physics
- 数据文件:
- 分割: test
- 路径: conceptual_physics.parquet
计量经济学
- 配置名称: econometrics
- 数据文件:
- 分割: test
- 路径: econometrics.parquet
计算机安全
- 配置名称: computer_security
- 数据文件:
- 分割: test
- 路径: computer_security.parquet
高中欧洲历史
- 配置名称: high_school_european_history
- 数据文件:
- 分割: test
- 路径: high_school_european_history.parquet
临床知识
- 配置名称: clinical_knowledge
- 数据文件:
- 分割: test
- 路径: clinical_knowledge.parquet
大学生物
- 配置名称: college_biology
- 数据文件:
- 分割: test
- 路径: college_biology.parquet
大学化学
- 配置名称: college_chemistry
- 数据文件:
- 分割: test
- 路径: college_chemistry.parquet
大学计算机科学
- 配置名称: college_computer_science
- 数据文件:
- 分割: test
- 路径: college_computer_science.parquet
大学数学
- 配置名称: college_mathematics
- 数据文件:
- 分割: test
- 路径: college_mathematics.parquet
史前史
- 配置名称: prehistory
- 数据文件:
- 分割: test
- 路径: prehistory.parquet
道德争议
- 配置名称: moral_disputes
- 数据文件:
- 分割: test
- 路径: moral_disputes.parquet
医学遗传学
- 配置名称: medical_genetics
- 数据文件:
- 分割: test
- 路径: medical_genetics.parquet
公共关系
- 配置名称: public_relations
- 数据文件:
- 分割: test
- 路径: public_relations.parquet
高中心理学
- 配置名称: high_school_psychology
- 数据文件:
- 分割: test
- 路径: high_school_psychology.parquet
高中统计学
- 配置名称: high_school_statistics
- 数据文件:
- 分割: test
- 路径: high_school_statistics.parquet
形式逻辑
- 配置名称: formal_logic
- 数据文件:
- 分割: test
- 路径: formal_logic.parquet
高中生物
- 配置名称: high_school_biology
- 数据文件:
- 分割: test
- 路径: high_school_biology.parquet
高中化学
- 配置名称: high_school_chemistry
- 数据文件:
- 分割: test
- 路径: high_school_chemistry.parquet
电气工程
- 配置名称: electrical_engineering
- 数据文件:
- 分割: test
- 路径: electrical_engineering.parquet
高中数学
- 配置名称: high_school_mathematics
- 数据文件:
- 分割: test
- 路径: high_school_mathematics.parquet
高中计算机科学
- 配置名称: high_school_computer_science
- 数据文件:
- 分割: test
- 路径: high_school_computer_science.parquet
高中地理
- 配置名称: high_school_geography
- 数据文件:
- 分割: test
- 路径: high_school_geography.parquet
高中政府与政治
- 配置名称: high_school_government_and_politics
- 数据文件:
- 分割: test
- 路径: high_school_government_and_politics.parquet
高中微观经济学
- 配置名称: high_school_microeconomics
- 数据文件:
- 分割: test
- 路径: high_school_microeconomics.parquet
商业伦理
- 配置名称: business_ethics
- 数据文件:
- 分割: test
- 路径: business_ethics.parquet
人类衰老
- 配置名称: human_aging
- 数据文件:
- 分割: test
- 路径: human_aging.parquet
人类性行为
- 配置名称: human_sexuality
- 数据文件:
- 分割: test
- 路径: human_sexuality.parquet
全球事实
- 配置名称: global_facts
- 数据文件:
- 分割: test
- 路径: global_facts.parquet
高中宏观经济学
- 配置名称: high_school_macroeconomics
- 数据文件:
- 分割: test
- 路径: high_school_macroeconomics.parquet
国际法
- 配置名称: international_law
- 数据文件:
- 分割: test
- 路径: international_law.parquet
高中物理
- 配置名称: high_school_physics
- 数据文件:
- 分割: test
- 路径: high_school_physics.parquet
机器学习
- 配置名称: machine_learning
- 数据文件:
- 分割: test
- 路径: machine_learning.parquet
管理学
- 配置名称: management
- 数据文件:
- 分割: test
- 路径: management.parquet
市场营销
- 配置名称: marketing
- 数据文件:
- 分割: test
- 路径: marketing.parquet

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
NSL-KDD
NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本,解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件,以及包含数据集列名的文件。
github 收录