gpqa-extended_tr

Name: gpqa-extended_tr
Creator: Yildiz Technical University Computer Engineering Department Cosmos Research Group
Published: 2025-10-21 14:32:16
License: 暂无描述

Hugging Face2025-10-21 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/ytu-ce-cosmos/gpqa-extended_tr

下载链接

链接失效反馈

官方服务：

资源简介：

GPQA扩展数据集的土耳其语翻译版本，用于评估大型语言模型在研究生级别科学问题上的表现。数据集通过google/gemma-3-27b-it模型单独翻译每行的特定列，该模型在英语和土耳其语两种语言上都有很好的翻译能力，并且在科学翻译中表现良好。

提供机构：

Yildiz Technical University Computer Engineering Department Cosmos Research Group

创建时间：

2025-10-13

原始信息汇总

GPQA Extended Turkish 数据集概述

基本信息

数据集名称: GPQA Extended Translated to Turkish Language
语言: 土耳其语 (tr)
许可证: Apache-2.0
数据规模: 小于1K样本

任务类型

问答任务 (question-answering)

领域标签

化学
生物学
物理学

数据集描述

本数据集是GPQA数据集（扩展版）的土耳其语翻译版本，该数据集是评估大语言模型在研究生水平科学问题表现方面最著名的基准之一。

翻译方法

使用"google/gemma-3-27b-it"模型对每行的列子集进行单独翻译
该模型在英语和土耳其语方面具有良好的能力，在科学翻译方面表现良好
翻译过程中保持LaTeX数学符号不变，保留数字格式，维持所有格式、换行和间距

联系方式

COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr

搜集汇总

数据集介绍

构建方式

在科学评估领域，GPQA扩展土耳其语数据集通过精心设计的翻译流程构建而成。该数据集源自GPQA基准的扩展版本，专门针对研究生层次科学问题设计。翻译过程采用gemma-3-27b-it模型进行自动化处理，该模型在英土双语科学文本转换方面展现出卓越能力。为确保专业术语准确性，翻译过程严格遵循保留LaTeX数学符号、数字格式及文本结构的准则，通过系统化提示工程实现高质量的语言转换。

使用方法

对于自然语言处理研究者而言，该数据集主要应用于大语言模型的跨语言能力评估。使用者可直接加载数据集进行问答任务测试，通过模型在土耳其语科学问题上的表现来评估其专业领域理解能力。建议将数据集划分为训练集与测试集，采用标准评估指标衡量模型性能。该资源特别适用于多语言科学问答系统的开发与优化，为跨语言学术能力评估提供可靠基准。

背景与挑战

背景概述

在多语言自然语言处理研究蓬勃发展的背景下，GPQA扩展土耳其语翻译数据集应运而生。该数据集由耶尔德兹技术大学计算机工程系COSMOS人工智能研究组于2024年构建，基于原始GPQA数据集进行跨语言迁移。作为评估大语言模型在研究生层级科学问题解答能力的重要基准，其核心价值在于拓展了高质量科学问答资源的语言边界，为土耳其语自然语言处理社区提供了评估模型科学推理能力的关键工具，显著推动了非英语语言环境下人工智能科学素养评估体系的发展。

当前挑战

该数据集面临的双重挑战体现在领域问题与构建过程两个维度。在领域层面，研究生层级科学问题涉及化学、生物、物理等学科的深度知识推理，要求模型具备跨学科概念理解和复杂逻辑推导能力。构建过程中，科学术语的精准翻译与数学公式的完整性保存构成主要难点，特别是LaTeX数学符号的保留与专业术语的语境适配，需通过特定提示工程确保翻译过程不破坏原始语义结构和科学严谨性。

常用场景

经典使用场景

在自然语言处理领域，GPQA扩展土耳其语版本作为评估大型语言模型科学推理能力的重要基准，其核心应用聚焦于对模型在研究生级别科学问题解答表现的系统性评测。该数据集通过严谨构建的化学、生物与物理领域问题，为研究者提供了跨学科知识理解的标准化测试平台，尤其在多语言科学文本处理任务中展现出独特价值。

解决学术问题

该数据集有效解决了多语言环境下高级科学知识评估的标准化难题，为衡量模型在专业术语翻译与科学概念理解方面的能力建立了可靠范式。通过提供高质量的土耳其语科学问答数据，填补了非英语语言在复杂科学推理任务中的评估空白，推动了跨语言知识迁移研究的发展，对提升模型在低资源语言场景下的科学素养具有重要意义。

实际应用

在实际应用层面，该数据集为土耳其语教育科技产品的开发提供了核心支撑，能够助力智能辅导系统实现研究生级别科学问题的精准解答。同时为跨国科研机构构建多语言科学知识库奠定基础，在学术资源本地化、跨语言科研协作等场景中发挥关键作用，显著提升了科学知识在土耳其语社区的传播效率。

数据集最近研究