HumanEval-TR

Hugging Face2025-12-04 更新2025-12-05 收录

下载链接：

https://huggingface.co/datasets/barandinho/HumanEval-TR

下载链接

链接失效反馈

官方服务：

资源简介：

164个带有土耳其语文档字符串的Python编程问题，这些问题是使用claude-sonnet-4-5从原始的英文HumanEval基准测试翻译而来。

This dataset consists of 164 Python programming problems with Turkish-language docstrings, which were translated from the original English HumanEval benchmark using Claude-Sonnet-4-5.

创建时间：

2025-11-30

原始信息汇总

HumanEval-TR 数据集概述

数据集基本信息

名称: HumanEval Turkish (HumanEval-TR)
托管地址: https://huggingface.co/datasets/barandinho/HumanEval-TR
语言: 土耳其语 (tr)、英语 (en)
许可证: MIT
任务类别: 文本生成
标签: 代码、humaneval、turkish、translation
配置名称: default

数据来源与描述

本数据集是 OpenAI HumanEval 数据集的土耳其语翻译版本。
包含 164 个 Python 编程问题，其文档字符串已从原始的英文 HumanEval 基准测试翻译为土耳其语。
翻译工作使用了 claude-sonnet-4-5 模型完成。

数据集结构与内容

数据分割: 仅包含测试集 (test)。
样本数量: 164 个。
下载大小: 83,387 字节。
数据集大小: 196,206 字节。

特征字段说明

task_id: 唯一标识符（例如："HumanEval/0"）。
prompt: 包含土耳其语文档字符串的函数签名。
canonical_solution: 参考解决方案。
test: 测试用例。
entry_point: 函数名称。

使用方法

python from datasets import load_dataset ds = load_dataset("barandinho/HumanEval-TR", split="test")

引用信息

如需引用，请使用 README 中提供的 BibTeX 条目，该条目引用自 arXiv:2107.03374 的论文《Evaluating Large Language Models Trained on Code》。

搜集汇总

数据集介绍

构建方式

在编程语言评估领域，HumanEval-TR数据集通过将OpenAI HumanEval基准测试中的英文编程问题翻译为土耳其语而构建。该过程采用claude-sonnet-4-5模型进行精准翻译，确保了164个Python编程问题及其文档字符串在语义上的准确性。每个条目保留了原始数据集中任务标识、函数签名、参考解决方案、测试用例和入口点等核心元素，从而为土耳其语环境下的代码生成模型评估提供了可靠基础。

使用方法

使用HumanEval-TR数据集时，研究人员可通过Hugging Face的datasets库直接加载，指定测试分割以获取全部164个编程问题。每个样本包含任务标识、提示文本、标准解决方案、测试用例和入口点，便于构建自动化评估流程。该数据集主要用于评估代码生成模型在土耳其语提示下的性能，通过执行提供的测试用例来量化模型输出代码的正确性，为多语言编程辅助工具的开发提供基准支持。

背景与挑战

背景概述

在自然语言处理与代码生成交叉领域，多语言编程能力评估逐渐成为研究热点。HumanEval-TR数据集作为OpenAI HumanEval基准的土耳其语翻译版本，由社区贡献者于2024年构建，旨在扩展代码生成模型在非英语环境下的评估维度。该数据集包含164个Python编程问题，将原始英文文档字符串精准转化为土耳其语，为研究跨语言代码理解与生成提供了关键资源。其出现响应了全球化软件开发中对多语言编程辅助工具的需求，显著推动了土耳其语语境下代码智能模型的发展，并为比较不同语言体系对编程逻辑表达的影响提供了实证基础。

当前挑战

该数据集核心挑战在于解决多语言代码生成中语义对齐与语法适配的双重难题。具体而言，编程问题描述从英语到土耳其语的转换需保持技术术语的精确性与逻辑结构的完整性，避免因语言差异导致解题意图失真。构建过程中，翻译工作面临编程领域专业术语的文化适配挑战，例如土耳其语语法结构与英语差异较大，需确保翻译后的文档字符串既符合自然语言习惯又不损失编程语义。同时，测试用例与函数签名的跨语言一致性维护也构成重要技术障碍，任何细微的翻译偏差都可能影响模型性能评估的可靠性。

常用场景

经典使用场景

在代码生成与自然语言处理交叉领域，HumanEval-TR数据集作为土耳其语编程问题基准，主要用于评估大型语言模型在多语言环境下的代码生成能力。研究者通过该数据集测试模型能否准确理解土耳其语描述的编程任务，并生成功能正确的Python代码，从而衡量模型对非英语编程语义的泛化性能。这一场景为跨语言代码智能研究提供了标准化评估工具，促进了多语言编程辅助系统的发展。

解决学术问题

该数据集有效解决了编程语言处理中非英语语境下评估资源匮乏的学术难题。传统代码生成研究高度依赖英语语料，限制了模型在多样化语言环境中的适用性评估。HumanEval-TR通过提供高质量的土耳其语编程问题集合，使研究者能够系统探究语言模型在低资源语言中的代码理解与生成能力，为跨语言迁移学习、语义对齐等研究方向提供了关键数据支撑，推动了编程语言处理领域的语言多样性发展。

实际应用

在实际应用层面，HumanEval-TR数据集为开发面向土耳其语用户的智能编程工具提供了核心测试平台。基于该数据集训练的模型可集成到代码编辑器、教育软件或自动化编程系统中，帮助土耳其语开发者通过母语描述直接生成代码片段，显著降低编程学习与开发门槛。此类应用尤其适用于非英语主导地区的计算机教育和技术普及，体现了人工智能技术在促进全球数字包容性方面的实践价值。

数据集最近研究