five

ClassEval-T|代码翻译数据集|大型语言模型数据集

收藏
arXiv2024-11-09 更新2024-11-13 收录
代码翻译
大型语言模型
下载链接:
http://arxiv.org/abs/2411.06145v1
下载链接
链接失效反馈
资源简介:
ClassEval-T是一个面向类级别的代码翻译基准数据集,由山东大学构建。该数据集包含Python、Java和C++三种编程语言的类级别代码片段,旨在评估大型语言模型在实际开发中的代码翻译能力。数据集通过360人小时的逐行手动翻译完成,包含丰富的依赖信息和实际编程问题,如数据库操作和游戏设计。创建过程中,研究人员设计了三种翻译策略,并评估了六种不同类型的大型语言模型。ClassEval-T的应用领域主要集中在代码翻译和大型语言模型的性能评估,旨在解决现有基准数据集在实际开发中代码翻译能力的不足。
提供机构:
山东大学
创建时间:
2024-11-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
ClassEval-T数据集的构建基于ClassEval,这是一个著名的类级别Python代码生成基准,涵盖了多个实际编程主题,如数据库操作和游戏设计,并具有多样化的上下文依赖(如字段、方法和库)。为了创建ClassEval-T,研究团队耗费了360个人工小时,手动将Python代码迁移到Java和C++,确保了完整的代码样本和相关的测试套件。这一过程通过严格的命名约定、类型转换、实现布局、库选择和测试套件构建原则,确保了翻译代码的高质量。
特点
ClassEval-T数据集显著特点在于其类级别的代码翻译,超越了传统的语句/方法级别,包含了更长的代码长度、多样的依赖关系以及实际编程问题。该数据集不仅评估代码翻译的正确性,还评估了大型语言模型(LLMs)在依赖感知和适当库调用方面的能力。此外,ClassEval-T支持多种翻译策略的探索,如整体翻译、最小依赖翻译和独立翻译,为评估LLMs在不同场景下的表现提供了丰富的工具。
使用方法
ClassEval-T数据集适用于评估和提升大型语言模型在类级别代码翻译任务中的性能。研究者和开发者可以通过该数据集测试不同LLMs在多种编程语言(如Python、Java和C++)之间的翻译能力,并探索不同的翻译策略(如整体翻译、最小依赖翻译和独立翻译)。此外,数据集的高覆盖率测试套件和详细的依赖信息,使得用户能够深入分析LLMs在代码翻译中的依赖感知和推理能力,从而为实际应用和未来研究提供指导。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在自动化代码翻译方面取得了显著进展,使得在许多先前的基准测试中,其计算准确率达到了80%以上。然而,这些基准测试中的大多数代码样本都是短小的、独立的、语句/方法级别的,并且算法性强,这与实际的编码任务不符。因此,LLMs在日常开发中编写的代码样本翻译的实际能力仍然未知。为了解决这一问题,我们构建了一个类级别的代码翻译基准测试,即ClassEval-T,并首次尝试广泛评估最近LLMs在类级别代码翻译中的表现。ClassEval-T是从ClassEval扩展而来的,ClassEval是一个著名的类级别Python代码生成基准,包含多个实际编码主题,如数据库操作和游戏设计,以及多样化的上下文依赖(例如字段、方法和库)。我们花费了360个人工时完成了手动迁移到Java和C++,并提供了完整的代码样本和相关的测试套件。随后,我们设计了三种翻译策略(即整体、最小依赖和独立)用于类级别代码翻译,并在ClassEval-T上评估了六种不同类型、家族和大小的最近LLMs。实验结果表明,与最广泛研究的方法级别代码翻译基准相比,性能显著下降,LLMs之间出现了明显的差异,显示出ClassEval-T在衡量最近LLMs方面的有效性。
当前挑战
ClassEval-T数据集面临的挑战主要集中在两个方面。首先,解决的领域问题是类级别代码翻译,这与之前的方法级别代码翻译相比,涉及更长的代码长度、更多的上下文依赖和更复杂的实际编码问题。其次,在构建过程中,手动迁移到Java和C++并确保代码样本和测试套件的完整性是一个耗时且复杂的过程,需要高度的专业知识和细致的工作。此外,评估LLMs在类级别代码翻译中的表现时,需要考虑不同的翻译策略和LLMs的依赖感知能力,这增加了评估的复杂性和难度。
常用场景
经典使用场景
ClassEval-T数据集的经典使用场景在于评估大型语言模型(LLMs)在类级别代码翻译任务中的性能。通过提供包含多种编程语言(如Python、Java和C++)的类级别代码样本,该数据集允许研究人员和开发者测试和比较不同LLMs在处理复杂代码结构、依赖关系和实际编程问题时的表现。这种评估不仅限于代码的正确性,还包括对依赖关系的感知和推理能力,从而全面衡量LLMs在实际开发环境中的适用性。
实际应用
在实际应用中,ClassEval-T数据集为开发者提供了宝贵的工具,帮助他们评估和选择适合特定编程任务的LLMs。通过该数据集,开发者可以了解不同LLMs在处理类级别代码翻译时的优缺点,从而在实际项目中做出更明智的技术选择。此外,该数据集还促进了LLMs在软件开发中的应用,特别是在跨语言代码迁移和代码生成等场景中,提高了开发效率和代码质量。
衍生相关工作
ClassEval-T数据集的发布催生了一系列相关的经典工作,特别是在代码翻译和代码生成领域。例如,基于ClassEval-T的研究成果,一些学者提出了新的翻译策略和评估方法,进一步优化了LLMs在类级别代码翻译中的表现。此外,该数据集还激发了对LLMs在代码理解和生成方面能力的深入研究,推动了相关技术的创新和发展。这些衍生工作不仅丰富了代码翻译领域的研究内容,也为实际应用提供了更多可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录