five

PolyDevTasks-Chinese_English_German

收藏
Hugging Face2025-08-29 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/Mxode/PolyDevTasks-Chinese_English_German
下载链接
链接失效反馈
官方服务:
资源简介:
PolyDevTasks是一个包含超过38万条真实编码任务指令的多语言软件开发智能任务数据集,涵盖中文、英文、德语三种自然语言和C、C#、C++、Go、Java、JavaScript、Python、Rust八种编程语言。
创建时间:
2025-08-29
原始信息汇总

PolyDevTasks 数据集概述

基本信息

  • 数据集名称:PolyDevTasks
  • 许可证:CC BY-NC 4.0
  • 任务类别:文本生成、问答
  • 支持语言:中文(zh)、英文(en)、德语(de)
  • 标签:代码
  • 数据规模:100K 到 1M 条记录之间

数据集介绍

PolyDevTasks 是一个包含超过 38 万条真实编码任务指令的数据集,涵盖 3 种自然语言(中文、英文、德语)和 8 种编程语言(C、C#、C++、Go、Java、JavaScript、Python、Rust)。每条指令均为独立编写,体现特定语言与生态的习惯用法,并强调智能体的行为特征,如工具使用、网络操作、文件处理和优雅退出。该数据集专为训练和评测 Agents 与 LLMs 在端到端软件工作流和跨语言泛化能力上的表现而设计。

数据配置

数据集包含三个配置:

  • zh:中文自然语言配置,包含 8 种编程语言的数据文件
  • en:英文自然语言配置,包含 8 种编程语言的数据文件
  • de:德文自然语言配置,包含 8 种编程语言的数据文件

数据统计

总体统计

  • 总记录数:385,045 条
  • 中文(zh)记录数:144,002 条
  • 英文(en)记录数:112,995 条
  • 德文(de)记录数:128,048 条

编程语言统计

  • C:56,368 条
  • C#:53,352 条
  • C++:47,079 条
  • Go:52,958 条
  • Java:51,016 条
  • JavaScript:38,459 条
  • Python:38,733 条
  • Rust:47,080 条

平均长度统计

  • 中文整体:指令平均长度 86.24,响应平均长度 5,225.92
  • 英文整体:指令平均长度 201.04,响应平均长度 4,280.54
  • 德文整体:指令平均长度 237.70,响应平均长度 4,689.22

引用信息

bibtex @misc{zhang2025PolyDevTasks,
title={PolyDevTasks: Multilingual Agentic Tasks for Software Development},
url={https://huggingface.co/datasets/Mxode/PolyDevTasks-Chinese_English_German},
author={Xiantao Zhang},
month={August},
year={2025}
}

许可证

本数据集采用 CC BY-NC 4.0 许可。

搜集汇总
数据集介绍
main_image_url
构建方式
在软件开发多语言智能任务领域,PolyDevTasks数据集通过独立编写而非翻译的方式构建,涵盖中文、英文和德语三种自然语言及八种主流编程语言。每条指令均体现特定编程生态的习惯用法,如Go的并发模型和C#的LINQ特性,并注重智能体行为特征包括工具调用与文件操作,最终形成超过38万条高质量真实编码任务指令集合。
特点
该数据集核心特点在于其多语言多维度的覆盖体系,不仅包含自然语言与编程语言的交叉组合,更强调指令的原创性和生态适配性。数据规模达38万余条,每条指令平均长度随语言类型呈现显著差异,例如德语指令平均达237字符,而响应长度则因编程语言特性波动,JavaScript响应平均超8000字符,充分体现实际开发场景的复杂性。
使用方法
研究者可通过HuggingFace平台按自然语言或编程语言配置灵活加载数据子集,支持文本生成与问答任务范式。该数据集专为评估智能体在端到端开发工作流中的表现设计,适用于跨语言泛化能力研究、多模态代码生成模型训练,以及软件工程智能体行为特性分析等前沿方向。
背景与挑战
背景概述
多语言软件开发数据集PolyDevTasks由Xiantao Zhang于2025年构建,致力于解决智能体与大型语言模型在跨语言编程任务中的泛化能力问题。该数据集涵盖中英德三种自然语言与八种编程语言的真实编码指令,突破了传统模板化数据集的局限,通过独立编写的指令体现各语言生态的特性,为软件工程智能化研究提供了重要基准。
当前挑战
该数据集需解决多语言代码生成中的语义对齐与语法适配挑战,包括不同编程范式的逻辑转换和自然语言指令的精确解析。构建过程中面临多语言指令的原创性编写难题,需确保每种语言组合的语法规范性与生态特异性,同时维持大规模数据集的质量一致性与技术准确性。
常用场景
经典使用场景
在软件开发智能体研究领域,PolyDevTasks数据集通过覆盖中文、英文和德语三种自然语言与八种编程语言的真实编码任务,为多语言代码生成与理解提供了标准化测试平台。该数据集典型应用于训练大型语言模型处理跨语言编程指令,评估模型在特定语言生态习惯用法(如Go的并发机制或C#的LINQ特性)上的适应性,同时验证智能体在文件处理、网络操作等端到端工作流中的综合性能。
解决学术问题
该数据集有效解决了多语言编程智能体泛化能力评估的学术难题,为研究跨语言代码语义一致性、低资源语言编程支持以及文化语境对代码生成的影响提供了数据基础。其意义在于突破了传统单语代码数据集的局限性,推动了多模态编程语言处理研究的发展,并为构建具备真实开发场景适应性的智能体系统提供了关键训练资源。
衍生相关工作
该数据集催生了多项跨语言代码生成领域的创新研究,例如基于多语言指令微调的编程大模型开发、代码语义跨语言对齐算法优化,以及支持低资源编程语言的迁移学习框架。相关经典工作包括多模态编程智能体的行为一致性验证体系、结合特定语言生态特征的代码优化模型,以及端到端软件工作流自动化评估基准的构建。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作