NLPCoreTeam/humaneval_ru
收藏Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPCoreTeam/humaneval_ru
下载链接
链接失效反馈官方服务:
资源简介:
这是Code Generation HumanEval数据集的俄语翻译版本,主要用于生成函数体,基于函数签名和文档字符串。数据集包含164个样本,支持的任务是文本生成,语言为俄语和英语,标签为代码,数据集规模小于1K。
这是Code Generation HumanEval数据集的俄语翻译版本,主要用于生成函数体,基于函数签名和文档字符串。数据集包含164个样本,支持的任务是文本生成,语言为俄语和英语,标签为代码,数据集规模小于1K。
提供机构:
NLPCoreTeam
原始信息汇总
HumanEval_ru Dataset 概述
数据集基本信息
- 许可证: MIT
- 任务类别: 文本生成
- 支持语言: 俄语 (ru), 英语 (en)
- 标签: 代码
- 数据集大小: 小于1000条记录 (n<1K)
数据集描述
HumanEval_ru 是 OpenAI 的 HumanEval 数据集的俄语翻译版本。该数据集用于生成函数体,基于函数签名和文档字符串。编程问题使用 Python 编写,包含俄语自然文本的注释和文档字符串。
数据集结构
数据集结构与原始 HumanEval 数据集相同,包含以下特征:
- task_id
- prompt
- canonical_solution
- test
- entry_point
- signature
- docstring
- context
- instruction
- instruction_noexamples
使用方法
加载数据集
python from datasets import load_dataset load_dataset(NLPCoreTeam/humaneval_ru)
模型评估
评估模型在 HumanEval_ru 上的代码生成能力,需遵循特定步骤,并使用如 Codellama-7b-Python 模型进行评估。评估结果包括 pass@1 和 pass@10 等指标。
基准测试
数据集提供了多个模型的评估结果,包括 starcoder 和 Codellama 系列模型在俄语和英语环境下的 pass@1 和 pass@10 指标。具体指标如下:
| 模型 | RU Pass@1 | RU Pass@10 | EN Pass@1 | EN Pass@10 |
|---|---|---|---|---|
| starcoderbase-1b | 0.1420 | 0.1801 | 0.1509 | 0.2045 |
| starcoderbase-3b | 0.1924 | 0.2606 | 0.2137 | 0.3289 |
| starcoderbase-7b | 0.2515 | 0.3359 | 0.2868 | 0.3852 |
| starcoderbase-15b | 0.2676 | 0.3872 | 0.3036 | 0.4611 |
| starcoder-15b-Python | 0.3103 | 0.4132 | 0.3353 | 0.4931 |
| CodeLlama-7b-hf | 0.2673 | 0.3688 | 0.2975 | 0.4351 |
| CodeLlama-7b-Python-hf | 0.3500 | 0.5122 | 0.3960 | 0.5761 |
| CodeLlama-13b-hf | 0.3380 | 0.4884 | 0.3557 | 0.5489 |
| CodeLlama-13b-Python-hf | 0.4380 | 0.5796 | 0.4301 | 0.6226 |
以上信息提供了 HumanEval_ru 数据集的详细概述,包括其用途、结构、使用方法及基准测试结果。



