five

d0rj/lyra

收藏
Hugging Face2023-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0rj/lyra
下载链接
链接失效反馈
官方服务:
资源简介:
Lyra数据集是一个用于Turducken风格代码生成的基准数据集。该数据集包含代码、中文注释和英文注释,分为训练集、测试集和验证集,分别包含1600、200和200个样本。数据集的许可证为gpl-3.0,任务类别为文本到文本生成,语言包括英语、中文和代码,具有多语言性,标签为代码,名称为Lyra: A Benchmark for Turducken-Style Code Generation,大小类别为1K<n<10K,来源数据集为原始数据集。

Lyra数据集是一个用于Turducken风格代码生成的基准数据集。该数据集包含代码、中文注释和英文注释,分为训练集、测试集和验证集,分别包含1600、200和200个样本。数据集的许可证为gpl-3.0,任务类别为文本到文本生成,语言包括英语、中文和代码,具有多语言性,标签为代码,名称为Lyra: A Benchmark for Turducken-Style Code Generation,大小类别为1K<n<10K,来源数据集为原始数据集。
提供机构:
d0rj
原始信息汇总

数据集概述

数据集名称

  • 名称: Lyra
  • 别名: Lyra: A Benchmark for Turducken-Style Code Generation

数据集特征

  • 特征列表:
    • id: 数据类型为 int64
    • code: 数据类型为 string
    • comm_zh: 数据类型为 string
    • comm_en: 数据类型为 string

数据集分割

  • 训练集:
    • 示例数量: 1600
    • 存储大小: 1090652 字节
  • 测试集:
    • 示例数量: 200
    • 存储大小: 134995 字节
  • 验证集:
    • 示例数量: 200
    • 存储大小: 136895 字节

数据集大小

  • 下载大小: 556372 字节
  • 数据集总大小: 1362542 字节

许可信息

  • 许可证: gpl-3.0

任务类别

  • 任务: text2text-generation

语言信息

  • 支持语言:
    • en (英语)
    • zh (中文)
    • code (代码)

多语言性

  • 多语言支持: 是 (multilingual)

数据集大小分类

  • 大小分类: 1K<n<10K

数据来源

  • 来源类型: 原始数据 (original)

相关论文

搜集汇总
数据集介绍
main_image_url
构建方式
在代码生成领域,多语言编程实践日益普遍,Lyra数据集的构建体现了对这一趋势的深刻洞察。该数据集通过精心收集1600个训练样本、200个验证样本和200个测试样本,每个样本均包含唯一的ID标识、源代码片段以及对应的中英文注释。其构建过程严格遵循学术规范,原始数据来源于实际编程项目,确保了样本的真实性与代表性。数据以文本到文本生成任务为导向,结构清晰,支持中英双语及代码语言,为Turducken风格代码生成研究提供了扎实的基础。
使用方法
使用Lyra数据集时,研究人员可将其应用于代码生成模型的训练与评估,特别是在Turducken风格代码生成任务中。数据集以标准格式提供,用户可通过HuggingFace平台直接下载,包含ID、代码、中英文注释等字段,便于数据加载与预处理。在模型开发过程中,建议利用训练集进行参数优化,验证集进行调参,测试集进行最终性能评估。数据集支持多语言处理,用户可结合中英文注释来增强模型的跨语言理解能力,推动代码生成技术在实际编程环境中的应用。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码生成任务正从单一语言向复杂混合范式演进。Lyra数据集由研究团队于2021年创建,其核心研究问题聚焦于Turducken风格代码生成,即嵌套式多语言代码的自动合成。该数据集通过提供中英文注释与对应代码片段,旨在推动跨语言编程辅助系统的发展,对提升多语言环境下的开发效率具有显著影响力。
当前挑战
Lyra数据集致力于解决Turducken风格代码生成的挑战,这要求模型同时理解自然语言语义与多层级编程语言语法,并实现跨语言逻辑的精准映射。在构建过程中,研究人员需克服注释与代码间的文化差异对齐、多语言嵌套结构的数据标注一致性,以及确保生成代码的功能正确性与语言规范性等难题。
常用场景
经典使用场景
在代码生成领域,Turducken风格代码作为一种嵌套式编程范式,融合了多种语言特性,对模型的多语言理解和结构生成能力提出了更高要求。Lyra数据集专为这一场景设计,其经典使用场景聚焦于评估和训练模型在生成复杂嵌套代码时的表现。通过提供包含中英文注释的代码样本,该数据集能够系统测试模型在跨语言语境下的代码合成能力,为Turducken风格代码生成研究提供了标准化基准。
解决学术问题
Lyra数据集有效解决了代码生成研究中长期存在的多语言嵌套代码评估难题。传统基准往往局限于单一语言或简单结构,难以捕捉真实世界中代码的混合特性。该数据集通过引入Turducken风格代码,即代码中嵌入多种语言片段,推动了模型在语义理解和结构组合方面的研究。其意义在于为学术界提供了衡量模型处理复杂、异构代码能力的可靠工具,促进了代码生成技术向更实用、更灵活的方向发展。
实际应用
在实际软件开发中,多语言混合编程日益普遍,尤其在跨平台应用、嵌入式系统或遗留代码维护中,Turducken风格代码频繁出现。Lyra数据集的应用场景包括辅助开发工具的设计,如智能代码补全、跨语言重构和自动化测试生成。通过基于该数据集的模型训练,工具能够更准确地理解嵌套代码逻辑,提升开发效率,减少人工错误,从而在工业环境中支持复杂软件项目的可持续维护与迭代。
数据集最近研究
最新研究方向
在代码生成领域,Turducken风格代码作为一种嵌套多语言结构的复杂编程范式,正逐渐成为研究热点。Lyra数据集作为该领域的基准,其最新研究方向聚焦于提升模型对中英文注释与代码混合生成的理解能力,探索跨语言语义对齐与代码逻辑的深度融合。前沿工作围绕多模态代码生成模型的优化展开,结合大语言模型在代码补全与翻译任务中的表现,推动智能编程助手在真实开发场景中的应用。相关研究不仅促进了代码生成技术的跨语言适应性,也为软件工程中多语言协作开发提供了理论支撑,具有显著的学术与实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作