five

NLPCoreTeam/humaneval_ru

收藏
Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPCoreTeam/humaneval_ru
下载链接
链接失效反馈
官方服务:
资源简介:
这是Code Generation HumanEval数据集的俄语翻译版本,主要用于生成函数体,基于函数签名和文档字符串。数据集包含164个样本,支持的任务是文本生成,语言为俄语和英语,标签为代码,数据集规模小于1K。

这是Code Generation HumanEval数据集的俄语翻译版本,主要用于生成函数体,基于函数签名和文档字符串。数据集包含164个样本,支持的任务是文本生成,语言为俄语和英语,标签为代码,数据集规模小于1K。
提供机构:
NLPCoreTeam
原始信息汇总

HumanEval_ru Dataset 概述

数据集基本信息

  • 许可证: MIT
  • 任务类别: 文本生成
  • 支持语言: 俄语 (ru), 英语 (en)
  • 标签: 代码
  • 数据集大小: 小于1000条记录 (n<1K)

数据集描述

HumanEval_ru 是 OpenAI 的 HumanEval 数据集的俄语翻译版本。该数据集用于生成函数体,基于函数签名和文档字符串。编程问题使用 Python 编写,包含俄语自然文本的注释和文档字符串。

数据集结构

数据集结构与原始 HumanEval 数据集相同,包含以下特征:

  • task_id
  • prompt
  • canonical_solution
  • test
  • entry_point
  • signature
  • docstring
  • context
  • instruction
  • instruction_noexamples

使用方法

加载数据集

python from datasets import load_dataset load_dataset(NLPCoreTeam/humaneval_ru)

模型评估

评估模型在 HumanEval_ru 上的代码生成能力,需遵循特定步骤,并使用如 Codellama-7b-Python 模型进行评估。评估结果包括 pass@1 和 pass@10 等指标。

基准测试

数据集提供了多个模型的评估结果,包括 starcoder 和 Codellama 系列模型在俄语和英语环境下的 pass@1 和 pass@10 指标。具体指标如下:

模型 RU Pass@1 RU Pass@10 EN Pass@1 EN Pass@10
starcoderbase-1b 0.1420 0.1801 0.1509 0.2045
starcoderbase-3b 0.1924 0.2606 0.2137 0.3289
starcoderbase-7b 0.2515 0.3359 0.2868 0.3852
starcoderbase-15b 0.2676 0.3872 0.3036 0.4611
starcoder-15b-Python 0.3103 0.4132 0.3353 0.4931
CodeLlama-7b-hf 0.2673 0.3688 0.2975 0.4351
CodeLlama-7b-Python-hf 0.3500 0.5122 0.3960 0.5761
CodeLlama-13b-hf 0.3380 0.4884 0.3557 0.5489
CodeLlama-13b-Python-hf 0.4380 0.5796 0.4301 0.6226

以上信息提供了 HumanEval_ru 数据集的详细概述,包括其用途、结构、使用方法及基准测试结果。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作