five

XLCoST

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/reddy-lab-code-research/xlcost
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个新的跨语言代码智能基准数据集,包含了来自8种语言(7种编程语言和英语)的细粒度平行数据,支持10个跨语言代码任务。该数据集在代码段和程序级别都提供了平行数据,且每个程序都是独立的,不依赖于其他程序。数据集的规模包括11,265个编程问题、57,661个独特的程序以及509,091个代码段。任务涵盖了跨语言代码智能任务,包括程序翻译、摘要、合成和代码搜索。

This dataset is a novel cross-lingual code intelligence benchmark dataset. It contains fine-grained parallel data from 8 languages (7 programming languages and English), and supports 10 cross-lingual code intelligence tasks. Parallel data is provided at both the code snippet and program levels, with each program being independent and not dependent on any other programs. In terms of scale, the dataset includes 11,265 programming problems, 57,661 unique programs, and 509,091 code snippets. The supported tasks cover a variety of cross-lingual code intelligence scenarios, including program translation, code summarization, code synthesis, and code search.
提供机构:
GeeksForGeeks
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作