Lyra

Name: Lyra
Creator: 国立雅典理工大学电气与计算机工程学院
Published: 2022-11-21 22:15:43
License: 暂无描述

arXiv2022-11-21 更新2024-06-21 收录

下载链接：

https://github.com/pxaris/lyra-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Lyra数据集是由国立雅典理工大学电气与计算机工程学院等机构创建，包含1570首希腊传统和民间音乐作品，总计约80小时的数据。数据集内容来源于一部在线希腊纪录片系列，涵盖丰富的元数据信息，如乐器、地理和流派等。创建过程中，通过机器自动化和人工评估/标注相结合的方式，确保数据集的一致性和信息丰富性。Lyra数据集主要用于音乐信息检索（MIR）领域的研究，旨在通过计算分析揭示希腊传统和民间音乐的音乐学特征和现象。

The Lyra Dataset was developed by institutions including the School of Electrical and Computer Engineering of the National Technical University of Athens and other relevant organizations. It contains 1570 works of Greek traditional and folk music, with a total audio duration of approximately 80 hours. The content of the dataset is sourced from an online Greek documentary series, and it includes rich metadata such as musical instruments, geographic origins, musical genres, and other related information. During its development, a combination of automated machine processing and manual evaluation/annotation was employed to ensure the consistency and informational richness of the dataset. The Lyra Dataset is primarily utilized for research in the field of Music Information Retrieval (MIR), with the goal of uncovering musicological characteristics and phenomena of Greek traditional and folk music through computational analysis.

提供机构：

国立雅典理工大学电气与计算机工程学院

创建时间：

2022-11-21

搜集汇总

数据集介绍

构建方式

Lyra数据集从GitHub真实项目中爬取与数据库操作相关的Python函数块，经过严格的筛选与人工标注流程构建而成。十名计算机专业学生对原始代码进行细致修改，去除项目依赖信息，确保函数独立可执行，并简化变量名、删除冗余内容。同时，两名英语专业人员为每条代码标注中英文注释，注释遵循正确性、多样性与清晰性原则，参数以$符号标记。最终通过自动质量检查器（基于Pylint）和抽样审查迭代优化，形成包含2000个精心修正的代码片段及其对应注释的数据集。

特点

Lyra首次定义了“turducken式代码生成”任务，即在一个基础命令式语言（Python）中嵌入声明式语言（SQL）。数据集具有高度的真实性与多样性，代码来自真实项目，覆盖SQLAlchemy的三种执行风格：原始SQL字符串、Python表达式及ORM方式。每条代码均包含中英文双语注释，且代码与注释间存在紧密的跨语言依赖关系，如SQL字符串中的变量需与Python参数对应。数据集规模适中，但结构复杂，为代码生成领域提供了新的挑战。

使用方法

Lyra适用于评估模型在跨语言代码生成场景下的性能。用户可将自然语言注释（中文或英文）作为输入，训练模型生成同时包含Python与SQL的完整函数。实验采用Transformer、BERT风格（CodeBERT、GraphCodeBERT）及GPT风格（GPT-2、CodeGPT、CodeGPT-adapted）模型作为基线，使用BLEU、代码可执行率、基础语言AST匹配及精确AST匹配作为评价指标。数据集按80%训练、10%验证、10%测试划分，特别适合研究跨语言依赖建模与多语言语法协同学习。

背景与挑战

背景概述

在软件工程领域，代码生成技术旨在将自然语言描述自动转化为可执行程序，以减轻开发者的编程负担。然而，现有研究多聚焦于单一编程语言的生成，如声明式语言（SQL）或命令式语言（Python），却忽视了实际开发中声明式语言常嵌入命令式语言这一普遍现象。为弥合这一鸿沟，北京大学高可信软件技术教育部重点实验室的研究团队于2021年提出了Lyra数据集，由Qingyuan Liang、Zeyu Sun、Yingfei Xiong等学者联合创建。该数据集包含2000个精心标注的数据库操作程序，每个程序均以Python为基语言嵌入SQL语句，并配以中英文注释，旨在推动“套娃式”代码生成任务的研究。Lyra的发布为代码生成领域树立了新的标杆，其真实性与多样性显著提升了技术落地的潜力。

当前挑战

Lyra数据集所面临的挑战主要体现在两个层面。首先，在领域问题层面，套娃式代码生成需同时处理两种语法体系，模型不仅要掌握Python与SQL的独立规则，还需捕捉两者间的交叉依赖关系，例如SQL字符串中的变量需与基语言参数动态绑定，这远复杂于单一语言生成任务。其次，在构建过程中，从GitHub爬取的原始代码片段常包含项目相关的全局变量或类方法，导致功能块无法独立执行；人工修正需耗费约400小时，且需确保代码简洁、无冗余信息，同时注释需精准描述参数与SQL操作。此外，数据质量检查依赖静态分析工具Pylint，但自动检查后仍需人工抽样迭代，以确保无敏感信息与逻辑错误，这些步骤共同构成了数据集构建的显著挑战。

常用场景

经典使用场景

在软件工程与人工智能的交叉领域中，代码生成任务长期聚焦于单一编程语言的自动合成，然而现实世界中的软件开发往往需要将一种声明式语言嵌套于另一种命令式语言之中，形成“套娃式”编程范式。Lyra数据集正是为此而生，其经典使用场景在于从自然语言注释出发，自动生成嵌有SQL语句的Python数据库操作代码。这一场景精准捕捉了实际开发中常见的模式——程序员编写包含SQL查询的Python函数，以完成数据检索、条件过滤与结果处理等操作。通过提供2000组经过精细标注的真实项目代码片段，Lyra为评估模型在双语言交织环境下的生成能力树立了全新标杆。

实际应用

在实际软件工程中，Lyra数据集所支撑的技术直接服务于数据库驱动型应用的自动化开发流程。例如，在Web后端开发中，程序员频繁需要编写从数据库查询用户信息、统计订单数量或验证登录凭证的Python函数，这些函数的核心逻辑正是“套娃式”的——SQL语句作为字符串嵌入Python代码，并通过函数参数动态传递查询条件。基于Lyra训练的代码生成模型，能够将产品经理或测试工程师撰写的自然语言需求（如“根据用户名查询用户ID”）自动转化为可执行的Python-SQL混合代码，显著降低重复性编码劳动。此外，该技术还可集成于低代码开发平台与智能集成开发环境（IDE）中，为开发者提供实时代码补全与建议，从而提升软件交付效率并减少语法错误。

衍生相关工作

Lyra数据集的出现催生了一系列富有启发性的衍生研究工作。首先，它开创了“套娃式”代码生成这一全新任务范式，激励研究者探索将更多语言组合纳入生成框架，例如在HTML中嵌入JavaScript、在Java中嵌入SQL或XML的代码合成。其次，基于Lyra的实验结果，后续工作开始致力于设计专门的双语言交互建模模块，例如通过跨语言注意力机制捕捉SQL字符串与Python变量之间的对应关系，或利用语法树融合策略同时解析两种语言的抽象语法结构。此外，Lyra中同时包含中文与英文注释的特点，也引发了关于多语言自然语言描述对代码生成质量影响的比较研究，推动了跨语言代码生成技术的发展。这些衍生工作共同拓展了代码生成技术的应用边界，使其向真实世界软件开发的复杂需求迈进了坚实的一步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集