five

MMLU-pro-TR

收藏
Hugging Face2024-07-17 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/bezir/MMLU-pro-TR
下载链接
链接失效反馈
官方服务:
资源简介:
MMLU-Pro(土耳其语)数据集是一个用于严格评估大型语言模型(LLMs)能力的多任务理解数据集。该数据集包含12,000个复杂问题,涵盖多个学科,如生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学。这些问题通过人工监督和Gemini-1.5-pro的辅助进行翻译,旨在为土耳其语模型提供全面的评估。每个问题通常包含多达十个多选选项,以增加复杂性和需要更深层次的推理。数据集鼓励社区反馈错误,以不断改进资源。
创建时间:
2024-07-16
原始信息汇总

MMLU-Pro Dataset (Turkish)

概述

MMLU-Pro数据集(TIGER-Lab/MMLU-Pro)是一个用于严格基准测试大型语言模型(LLMs)能力的大规模多任务理解数据集。这个土耳其语翻译版本旨在为土耳其语言模型提供全面的评估,解决固有的挑战和复杂性。

数据集详情

  • 语言: 土耳其语
  • 许可证: MIT
  • 大小: 10K<n<100K
  • 任务类别: 问答
  • 标签: MMLU, Turkish Evaluation Dataset, Large Language Models

配置

  • 默认配置:
    • 测试集: data/test-*
    • 验证集: data/validation-*

数据集信息

  • 特征:

    • question_id: int64
    • question: string
    • options: string
    • answer: string
    • answer_index: int64
    • cot_content: string
    • category: string
    • src: string
  • 分割:

    • 测试集:
      • 字节数: 9090042
      • 样本数: 11842
    • 验证集:
      • 字节数: 62220
      • 样本数: 67
  • 下载大小: 4253764

  • 数据集大小: 9152262

数据集特点

  • 问题格式: 每个问题通常包括多达十个多选选项,旨在通过需要更深入的推理来增加复杂性和鲁棒性。
  • 来源: 问题来源包括原始MMLU数据集(排除琐碎和模棱两可的问题)、从知名网站手工挑选的STEM问题、TheoremQA和SciBench,这些都包含高质量的人工标注问题。
  • 涵盖学科: 生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学。

关键特性

  • 专注评估: 提供对土耳其语言模型的细致评估。
  • 增强复杂性: 问题具有多达10个选项,有效挑战模型。
  • 广泛覆盖: 涵盖多样化学科,确保全面测试。

贡献与维护

该数据集是一个持续的倡议:

  • 反馈: 通过问题页面报告任何错误或问题,提供question_id以便及时更正。

未来影响

该数据集有望在土耳其开源LLMs的发展和评估中发挥关键作用。它代表了构建更健壮和具有文化相关性模型的重大步骤。

引用信息

如果您在研究或应用中使用MMLU-pro-TR数据集,请按以下方式引用:

@misc{MMLU-pro-TR, author = {Abdullah Bezir}, title = {bezir/MMLU-pro-TR}, year = {2024}, publisher = {Abdullah Bezir}, howpublished = {https://huggingface.co/datasets/bezir/MMLU-pro-TR} }

搜集汇总
数据集介绍
main_image_url
构建方式
MMLU-pro-TR数据集的构建基于原始MMLU数据集,通过人工监督和Gemini-1.5-pro的辅助翻译,确保了土耳其语版本的高质量。数据集涵盖了生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学等多个学科,共计12,000个复杂问题。每个问题通常包含多达十个多项选择选项,旨在增加问题的复杂性和鲁棒性,要求模型具备更深层次的推理能力。
特点
MMLU-pro-TR数据集的特点在于其专注于土耳其语言模型的评估,提供了涵盖广泛学科的复杂问题。每个问题包含多达十个选项,显著增加了模型的挑战性。此外,数据集的问题来源多样,包括原始MMLU数据集、精选的STEM问题以及TheoremQA和SciBench中的人类标注问题,确保了数据的高质量和多样性。
使用方法
MMLU-pro-TR数据集主要用于评估土耳其语言模型的多任务理解能力。用户可以通过HuggingFace平台下载数据集,并利用其提供的测试集和验证集进行模型性能的评估。数据集中的每个问题都附有问题ID、问题文本、选项、答案、答案索引、推理内容和类别等信息,便于用户进行详细分析和模型优化。此外,用户可以通过反馈机制报告数据集中的错误,促进数据集的持续改进。
背景与挑战
背景概述
MMLU-pro-TR数据集是由TIGER-Lab团队开发的一个多任务理解数据集,旨在全面评估土耳其语言模型的能力。该数据集于2024年发布,包含12,000个复杂问题,涵盖生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学等多个学科。通过人工监督和Gemini-1.5-pro的辅助翻译,数据集确保了问题的高质量和复杂性。MMLU-pro-TR不仅为土耳其语言模型提供了细致的评估标准,还为相关领域的研究提供了重要的基准数据。
当前挑战
MMLU-pro-TR数据集在构建和应用过程中面临多重挑战。首先,翻译过程中需要确保问题的准确性和文化适应性,避免因语言差异导致的歧义或误解。其次,数据集中的问题设计复杂,通常包含多达十个选项,要求模型具备深层次的推理能力,这对模型的性能提出了更高的要求。此外,数据集的广泛学科覆盖要求模型具备跨领域的知识整合能力,这对当前的语言模型技术提出了严峻的挑战。最后,数据集的维护和更新需要持续的社区反馈和修正,以确保其长期有效性和可靠性。
常用场景
经典使用场景
MMLU-pro-TR数据集在自然语言处理领域中被广泛用于评估土耳其语大语言模型的多任务理解能力。通过涵盖生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学等多个学科,该数据集能够全面测试模型在不同领域的知识掌握和推理能力。其复杂的多选题设计,尤其是多达十个选项的题目,进一步挑战了模型的深度理解和推理能力。
实际应用
在实际应用中,MMLU-pro-TR数据集被用于开发和优化土耳其语智能助手、教育工具和跨语言翻译系统。通过评估模型在复杂问题上的表现,开发者能够更好地调整模型参数,提升其在土耳其语环境中的实用性和准确性。此外,该数据集还为土耳其语自然语言处理研究提供了重要的实验数据支持。
衍生相关工作
MMLU-pro-TR数据集的发布推动了多项相关研究工作的开展。例如,基于该数据集的研究成果已被用于改进土耳其语大语言模型的训练策略和评估方法。同时,该数据集还激发了更多针对土耳其语和其他低资源语言的跨学科评估工具的开发,进一步丰富了自然语言处理领域的研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作