d0rj/lyra

Name: d0rj/lyra
Creator: d0rj
Published: 2023-06-22 09:18:40
License: 暂无描述

Hugging Face2023-06-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/d0rj/lyra

下载链接

链接失效反馈

官方服务：

资源简介：

Lyra数据集是一个用于Turducken风格代码生成的基准数据集。该数据集包含代码、中文注释和英文注释，分为训练集、测试集和验证集，分别包含1600、200和200个样本。数据集的许可证为gpl-3.0，任务类别为文本到文本生成，语言包括英语、中文和代码，具有多语言性，标签为代码，名称为Lyra: A Benchmark for Turducken-Style Code Generation，大小类别为1K<n<10K，来源数据集为原始数据集。

提供机构：

d0rj

原始信息汇总

数据集概述

数据集名称

名称: Lyra
别名: Lyra: A Benchmark for Turducken-Style Code Generation

数据集特征

特征列表:
- id: 数据类型为 int64
- code: 数据类型为 string
- comm_zh: 数据类型为 string
- comm_en: 数据类型为 string

数据集分割

训练集:
- 示例数量: 1600
- 存储大小: 1090652 字节
测试集:
- 示例数量: 200
- 存储大小: 134995 字节
验证集:
- 示例数量: 200
- 存储大小: 136895 字节

数据集大小

下载大小: 556372 字节
数据集总大小: 1362542 字节

许可信息

许可证: gpl-3.0

任务类别

任务: text2text-generation

语言信息

支持语言:
- en (英语)
- zh (中文)
- code (代码)

多语言性

多语言支持: 是 (multilingual)

数据集大小分类

大小分类: 1K<n<10K

数据来源

来源类型: 原始数据 (original)

相关论文

论文标题: Lyra: A Benchmark for Turducken-Style Code Generation
论文链接: Lyra: A Benchmark for Turducken-Style Code Generation

搜集汇总

数据集介绍

构建方式

在代码生成领域，多语言编程实践日益普遍，Lyra数据集的构建体现了对这一趋势的深刻洞察。该数据集通过精心收集1600个训练样本、200个验证样本和200个测试样本，每个样本均包含唯一的ID标识、源代码片段以及对应的中英文注释。其构建过程严格遵循学术规范，原始数据来源于实际编程项目，确保了样本的真实性与代表性。数据以文本到文本生成任务为导向，结构清晰，支持中英双语及代码语言，为Turducken风格代码生成研究提供了扎实的基础。

使用方法

使用Lyra数据集时，研究人员可将其应用于代码生成模型的训练与评估，特别是在Turducken风格代码生成任务中。数据集以标准格式提供，用户可通过HuggingFace平台直接下载，包含ID、代码、中英文注释等字段，便于数据加载与预处理。在模型开发过程中，建议利用训练集进行参数优化，验证集进行调参，测试集进行最终性能评估。数据集支持多语言处理，用户可结合中英文注释来增强模型的跨语言理解能力，推动代码生成技术在实际编程环境中的应用。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成任务正从单一语言向复杂混合范式演进。Lyra数据集由研究团队于2021年创建，其核心研究问题聚焦于Turducken风格代码生成，即嵌套式多语言代码的自动合成。该数据集通过提供中英文注释与对应代码片段，旨在推动跨语言编程辅助系统的发展，对提升多语言环境下的开发效率具有显著影响力。

当前挑战

Lyra数据集致力于解决Turducken风格代码生成的挑战，这要求模型同时理解自然语言语义与多层级编程语言语法，并实现跨语言逻辑的精准映射。在构建过程中，研究人员需克服注释与代码间的文化差异对齐、多语言嵌套结构的数据标注一致性，以及确保生成代码的功能正确性与语言规范性等难题。

常用场景

经典使用场景

在代码生成领域，Turducken风格代码作为一种嵌套式编程范式，融合了多种语言特性，对模型的多语言理解和结构生成能力提出了更高要求。Lyra数据集专为这一场景设计，其经典使用场景聚焦于评估和训练模型在生成复杂嵌套代码时的表现。通过提供包含中英文注释的代码样本，该数据集能够系统测试模型在跨语言语境下的代码合成能力，为Turducken风格代码生成研究提供了标准化基准。

解决学术问题

Lyra数据集有效解决了代码生成研究中长期存在的多语言嵌套代码评估难题。传统基准往往局限于单一语言或简单结构，难以捕捉真实世界中代码的混合特性。该数据集通过引入Turducken风格代码，即代码中嵌入多种语言片段，推动了模型在语义理解和结构组合方面的研究。其意义在于为学术界提供了衡量模型处理复杂、异构代码能力的可靠工具，促进了代码生成技术向更实用、更灵活的方向发展。

实际应用

在实际软件开发中，多语言混合编程日益普遍，尤其在跨平台应用、嵌入式系统或遗留代码维护中，Turducken风格代码频繁出现。Lyra数据集的应用场景包括辅助开发工具的设计，如智能代码补全、跨语言重构和自动化测试生成。通过基于该数据集的模型训练，工具能够更准确地理解嵌套代码逻辑，提升开发效率，减少人工错误，从而在工业环境中支持复杂软件项目的可持续维护与迭代。

数据集最近研究