cosmadrian/rocode
收藏Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cosmadrian/rocode
下载链接
链接失效反馈官方服务:
资源简介:
RoCode是一个用于评估代码生成模型在罗马尼亚语提示下的编程问题解决能力的数据集。它包含2,642个用罗马尼亚语编写的编程问题,11,000个用C、C++和Python编写的解决方案,以及每个问题的全面测试套件。该数据集旨在为非英语语言(特别是罗马尼亚语)的代码生成模型提供一个基准测试和微调集。
RoCode是一个用于评估代码生成模型在罗马尼亚语提示下的编程问题解决能力的数据集。它包含2,642个用罗马尼亚语编写的编程问题,11,000个用C、C++和Python编写的解决方案,以及每个问题的全面测试套件。该数据集旨在为非英语语言(特别是罗马尼亚语)的代码生成模型提供一个基准测试和微调集。
提供机构:
cosmadrian
原始信息汇总
RoCode: A Dataset for Measuring Code Intelligence from Problem Definitions in Romanian
概述
RoCode是一个用于评估从罗马尼亚语问题定义中测量代码智能的数据集。该数据集包含2,642个用罗马尼亚语编写的问题,以及11,000个用C、C++和Python编写的解决方案和每个问题的综合测试套件。RoCode旨在为训练在罗马尼亚语/多语言文本上的语言模型提供基准,并为预训练的罗马尼亚语模型提供微调集。
数据集详情
数据集描述
- 创建者: Adrian Cosma, Bogdan Iordache, Paolo Rosso
- 语言: 罗马尼亚语, C++, Python
数据集来源
- 仓库: https://github.com/cosmaadrian/rocode
- 论文: https://arxiv.org/abs/2402.13222
用途
用于微调和评估解决罗马尼亚语编程谜题的大型语言模型。
引用
@misc{cosma2024rocode, title={RoCode: A Dataset for Measuring Code Intelligence from Problem Definitions in Romanian}, author={Adrian Cosma and Bogdan Iordache and Paolo Rosso}, year={2024}, eprint={2402.13222}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集卡片联系
如有任何信息需求,请联系Adrian Cosma (cosma.i.adrian@gmail.com)



