five

edinburgh-dawg/mmlu-redux

收藏
Hugging Face2025-02-09 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/edinburgh-dawg/mmlu-redux
下载链接
链接失效反馈
官方服务:
资源简介:
MMLU-Redux是MMLU数据集的一个子集,包含了30个不同主题的3000个手动重新标注的问题。每个数据点包含七个字段:问题、选项、答案、错误类型、来源、正确答案和潜在原因。数据集主要用于问答任务,语言为英语,遵循CC-BY-4.0许可。

MMLU-Redux is a subset of the MMLU dataset, which comprises 3000 manually re-annotated questions covering 30 distinct topics. Each data sample includes seven fields: question, options, answer, error type, source, correct answer, and potential cause. This dataset is primarily designed for question answering tasks, is written in English, and is released under the CC-BY-4.0 license.
提供机构:
edinburgh-dawg
原始信息汇总

数据集概述

数据集描述

MMLU-Redux是一个包含30个不同学科的3,000个手动重新标注问题的数据集。每个数据点包含以下七个特征:

  • question (str): 原始MMLU问题。
  • choices (List[str]): 与问题相关的四个选项。
  • answer (int): MMLU的正确答案标签,形式为0到3之间的数组索引。
  • error_type (str): 标注的错误类型,可以是以下六种之一:"ok", "bad_question_clarity", "bad_options_clarity", "no_correct_answer", "multiple_correct_answers", "wrong_groundtruth" 和 "expert"。
  • source (str): 问题的潜在来源。
  • correct_answer (str): 在"no_correct_answer"和"wrong_groundtruth"情况下,标注者可以建议替代的正确答案。
  • potential_reason (str): 标注者认为导致错误的自由文本描述。

数据集结构

数据集分为多个配置(config),每个配置代表一个学科,每个学科包含一个测试集(test split),测试集包含100个样本。以下是部分学科的配置名称和测试集样本数:

  • anatomy: 100个样本
  • business_ethics: 100个样本
  • clinical_knowledge: 100个样本
  • college_chemistry: 100个样本
  • college_computer_science: 100个样本
  • college_mathematics: 100个样本
  • college_medicine: 100个样本
  • college_physics: 100个样本
  • econometrics: 100个样本
  • electrical_engineering: 100个样本
  • formal_logic: 100个样本
  • global_facts: 100个样本
  • high_school_chemistry: 100个样本
  • high_school_mathematics: 100个样本
  • high_school_physics: 100个样本
  • high_school_statistics: 100个样本
  • human_aging: 100个样本
  • logical_fallacies: 100个样本
  • machine_learning: 100个样本
  • miscellaneous: 100个样本
  • philosophy: 100个样本
  • professional_accounting: 100个样本
  • public_relations: 100个样本
  • virology: 100个样本
  • conceptual_physics: 100个样本
  • high_school_us_history: 100个样本
  • astronomy: 100个样本
  • high_school_geography: 100个样本
  • high_school_macroeconomics: 100个样本
  • professional_law: 100个样本

数据集来源

MMLU-Redux的数据来源于cais/mmlu,该数据集也被用于lm-eval-harness框架。数据集的选择基于Holistic Evaluation of Language Models (HELM) leaderboard v1.3.0的性能分析。

许可证

数据集的许可证为CC-BY-4.0。

搜集汇总
数据集介绍
main_image_url
构建方式
MMLU-Redux数据集的构建基于对原始MMLU数据集的重新注释,涵盖了30个不同学科的3,000个问题。每个学科的100个问题被随机抽取,并由专业注释者根据预定义的分类法进行评估。注释过程包括对问题的清晰度、选项的清晰度以及答案的正确性进行详细检查,确保数据集的高质量和一致性。
特点
MMLU-Redux数据集的显著特点在于其细致的错误分类和详细的注释信息。每个问题不仅包含原始的问答内容,还增加了错误类型、来源、正确答案以及潜在原因等字段,这些信息为研究者提供了深入分析和改进模型性能的宝贵资源。此外,数据集涵盖了广泛的学科领域,从高中课程到专业学科,确保了其广泛的应用价值。
使用方法
MMLU-Redux数据集适用于多种自然语言处理任务,特别是问答系统和多选题评估。研究者可以利用该数据集训练和评估模型在不同学科领域的知识掌握能力,通过分析错误类型和注释信息,进一步优化模型的性能。数据集的详细注释也为错误分析和模型改进提供了丰富的参考资料。
背景与挑战
背景概述
MMLU-Redux数据集是由爱丁堡大学DAWG团队创建的一个多学科知识问答数据集,涵盖了30个不同领域的3000个重新注释的问题。该数据集的核心研究问题在于对原始MMLU数据集中的错误进行分类和修正,以提高数据集的质量和可靠性。主要研究人员包括Aryo Pradipta Gema等人,他们通过开发一个层次化的分类法来识别和分类MMLU中的各种错误。MMLU-Redux的创建不仅提升了数据集的准确性,还为多学科知识问答系统的评估提供了更为精确的基准。
当前挑战
MMLU-Redux数据集在构建过程中面临的主要挑战包括:1) 对原始MMLU数据集中存在的多种错误类型进行精确分类,如问题清晰度问题、选项清晰度问题、无正确答案、多重正确答案和错误的地面真值等;2) 确保注释过程的一致性和准确性,这需要注释者具备高度的专业知识和严格的注释指南;3) 在多个学科领域中保持数据集的平衡性和代表性,以确保评估结果的全面性和公正性。这些挑战不仅影响了数据集的质量,也对后续的模型评估和改进提出了更高的要求。
常用场景
经典使用场景
在多学科知识评估领域,MMLU-Redux数据集被广泛用于开发和验证多选题自动评分系统。其丰富的学科覆盖和详细的错误分类,使得研究人员能够精确评估模型在不同学科中的表现,并针对性地改进模型的知识理解和推理能力。
实际应用
在教育科技领域,MMLU-Redux数据集被用于开发智能辅导系统,通过分析学生在多选题中的表现,提供个性化的学习建议和错误纠正。此外,该数据集还支持在线考试系统的自动评分功能,提高了评估的效率和准确性。
衍生相关工作
基于MMLU-Redux数据集,研究人员开发了多种改进的多选题评分算法,显著提升了模型的准确性和鲁棒性。此外,该数据集还激发了一系列关于多学科知识评估和错误分类的研究,推动了教育评估领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作