bezir/MMLU-pro-TR

Name: bezir/MMLU-pro-TR
Creator: bezir
Published: 2024-07-20 23:18:02
License: 暂无描述

Hugging Face2024-07-20 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/bezir/MMLU-pro-TR

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-Pro数据集（土耳其语版本）是一个用于严格评估大型语言模型能力的多任务理解数据集。该数据集包含12,000个复杂问题，涵盖生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学等多个学科。每个问题通常包含多达10个多项选择选项，旨在通过增加复杂性和深度推理来挑战模型。数据集的问题来源于原始MMLU数据集、精选的STEM问题以及高质量的人工标注问题。该数据集旨在为土耳其语语言模型提供全面的评估工具，并鼓励社区反馈以持续改进资源。

The MMLU-Pro dataset (Turkish version) is a robust and challenging massive multi-task understanding dataset designed to rigorously benchmark the capabilities of large language models (LLMs). It contains 12,000 complex questions across various disciplines, including biology, business, chemistry, computer science, economics, engineering, mathematics, physics, and psychology. Each question typically includes up to ten multiple-choice options, tailored to increase complexity and robustness by necessitating deeper reasoning. The datasets questions are sourced from the original MMLU dataset, hand-picked STEM problems, and high-quality, human-annotated questions. This dataset aims to provide a comprehensive evaluation for Turkish language models and encourages community feedback to continually improve the resource.

提供机构：

bezir

原始信息汇总

MMLU-Pro Dataset (Turkish)

概述

MMLU-Pro数据集（TIGER-Lab/MMLU-Pro）是一个用于严格基准测试大型语言模型（LLMs）能力的大规模多任务理解数据集。该土耳其语版本旨在为土耳其语言模型提供全面的评估，解决固有的挑战和复杂性。

数据集详情

问题格式：每个问题通常包含多达十个多项选择选项，通过需要更深层次的推理来增加复杂性和鲁棒性。
来源：问题来源包括：
- 原始MMLU数据集（排除简单和模糊的问题）。
- 从知名网站手工挑选的STEM问题。
- TheoremQA和SciBench，包含高质量的人工标注问题。
涵盖学科：生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学。

关键特点

专注评估：提供对土耳其语言模型的细致评估。
增强复杂性：问题包含多达10个选项，以有效挑战模型。
广泛覆盖：涵盖多样化学科，确保全面测试。

MMLU vs. MMLU-Pro 结果

模型	原始MMLU得分	MMLU Pro得分	下降
Metin/LLaMA-3-8B-Instruct-TR-DPO	49.71	27.00	22.71
ytu-ce-cosmos/Turkish-Llama-8b-Instruct-v0.1	51.75	23.90	27.85
VeriUS/VeriUS-LLM-8b-v0.2	48.81	23.23	25.58
Orbina/Orbita-v0.1	49.51	22.95	26.56
KOCDIGITAL/Kocdigital-LLM-8b-v0.1	47.35	21.83	25.52
meta-llama/Meta-Llama-3-8B-Instruct	49.29	20.93	28.36
NousResearch/Meta-Llama-3-8B	49.29	20.93	28.36
curiositytech/MARS	46.73	20.81	25.92
Trendyol/Trendyol-LLM-7b-chat-v1.8	41.91	18.15	23.76
TURKCELL/Turkcell-LLM-7b-v1	39.03	17.15	21.88
ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1	26.56	10.88	15.67

贡献与维护

该数据集是一个持续的倡议：

反馈：通过问题页面报告任何错误或问题，提供question_id以进行及时修正。

未来影响

该数据集将在土耳其开源LLMs的开发和评估中发挥关键作用，代表了构建更健壮和更具文化相关性模型的重大步骤。

引用信息

如果您在研究或应用中使用MMLU-pro-TR数据集，请按以下方式引用：

@misc{MMLU-pro-TR, author = {Abdullah Bezir}, title = {bezir/MMLU-pro-TR}, year = {2024}, publisher = {Abdullah Bezir}, howpublished = {https://huggingface.co/datasets/bezir/MMLU-pro-TR} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型的多任务理解能力至关重要。MMLU-pro-TR数据集的构建融合了严谨的翻译与精选过程，其核心源自TIGER-Lab的MMLU-Pro英文原版。通过结合人工监督与Gemini-1.5-pro模型的辅助，将涵盖生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学及心理学等九大学科的复杂问题翻译为土耳其语。数据来源不仅包括原始MMLU数据集经筛选后的非平凡问题，还整合了来自权威网站的手选STEM难题，以及TheoremQA与SciBench中高质量的人工标注题目，确保了内容的多样性与挑战性。

特点

该数据集显著提升了评估的复杂性与广度。每个问题最多包含十个多项选择选项，这种设计迫使模型进行更深层次的推理，超越了传统四选项测试的局限。数据集覆盖广泛的学科领域，为土耳其语语言模型提供了全面而细致的性能基准。其结构包含问题ID、问题文本、选项、答案、答案索引、思维链内容、类别及来源等特征，不仅支持答案准确性评估，还能促进模型推理过程的分析。与原始MMLU相比，该版本专为土耳其语定制，旨在揭示模型在特定语言与文化语境下的真实能力。

使用方法

研究人员可利用此数据集对土耳其语大型语言模型进行系统性评估。数据集已划分为测试集与验证集，用户可直接加载相应分割进行模型测试。典型的使用流程包括加载数据集、预处理问题与选项、输入模型生成预测、并将预测结果与标注答案进行比对以计算准确率。其内置的思维链内容字段为分析模型推理路径提供了便利。社区鼓励用户反馈翻译或内容中的错误，通过提交具体问题ID促进数据集的持续优化与维护，从而共同推动土耳其语自然语言处理技术的发展。

背景与挑战

背景概述

在自然语言处理领域，多语言大模型的评估一直是推动技术进步的关键环节。MMLU-Pro-TR数据集由Abdullah Bezir于2024年创建，作为TIGER-Lab MMLU-Pro项目的土耳其语翻译版本，旨在为土耳其语语言模型提供一个严谨且全面的评估基准。该数据集涵盖了生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学等多个学科，包含约1.2万道复杂问题，通过人工监督与Gemini-1.5-pro辅助翻译而成。其核心研究问题在于如何准确衡量模型在土耳其语语境下的深度推理与跨学科知识理解能力，对促进土耳其语开源大模型的发展具有重要影响力。

当前挑战

该数据集所解决的领域问题在于评估大模型在土耳其语多任务理解中的性能，其挑战主要体现在问题的复杂性上：每个问题最多包含十个选项，要求模型进行深层推理而非表面匹配，这显著增加了模型准确区分细微差别的难度。在构建过程中，挑战主要源于高质量翻译的确保，尽管采用了人工监督与先进模型辅助，但跨语言转换时可能引入语义偏差或文化语境丢失，需要持续依赖社区反馈进行纠错与优化，以维持数据集的准确性与可靠性。

常用场景

经典使用场景

在自然语言处理领域，多语言大模型评估是衡量模型跨语言泛化能力的关键环节。bezir/MMLU-pro-TR数据集作为土耳其语版本的MMLU-Pro，其经典使用场景在于为土耳其语大语言模型提供系统性的基准测试。该数据集通过涵盖生物学、商业、化学、计算机科学、经济学、工程学、数学、物理学和心理学等多个学科的复杂问题，并设计多达十个选项的题目，有效评估模型在土耳其语环境下的深度推理与多任务理解能力，为研究者提供了标准化的性能对比平台。

实际应用

在实际应用层面，该数据集为土耳其语智能系统的开发与优化提供了重要支撑。教育科技领域可借助其评估智能辅导系统的学科知识解答能力；企业级聊天机器人需通过此类基准确保在商业、工程等专业场景中的可靠性；内容生成工具也能依据测试结果改进土耳其语科学文本的准确性。此外，数据集助力本土化AI产品的质量控制，促进土耳其语数字生态中可信、高效的语言模型部署。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作。例如，多项研究对比了Meta-Llama-3-8B-Instruct、Trendyol-LLM-7b-chat-v1.8等模型在MMLU-pro-TR上的表现，深入分析模型性能下降的原因与改进策略。这些工作不仅探索了土耳其语模型的架构优化与训练技术，还推动了针对低资源语言的评估方法论创新，为后续多语言基准构建与模型适应性研究奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集