five

CodeLL

收藏
arXiv2023-12-20 更新2024-06-21 收录
下载链接:
https://github.com/martin-wey/CodeLL-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
CodeLL是一个专注于代码变化的生命周期学习数据集,由蒙特利尔大学创建。该数据集包含从软件遗产平台挖掘的71个机器学习项目,总计2,483个版本和近100万个文件。数据集通过设计映射启发式方法,分析方法内容和API调用如何在软件存储库的整个生命周期中演变。CodeLL旨在支持代码数据和语言模型之间的共同进化,适用于研究语言模型在生命周期微调设置中学习代码变化的行为,以及分析软件存储库中数据分布随时间的动态变化。

CodeLL is a lifecycle learning dataset focused on code changes, developed by the University of Montreal. This dataset includes 71 machine learning projects mined from the Software Heritage platform, totaling 2,483 versions and nearly 1 million files. By designing heuristic mapping methods, it analyzes how method content and API calls evolve across the full lifecycle of software repositories. CodeLL aims to facilitate the co-evolution between code data and language models, and is applicable to researching the behavior of language models learning code changes in lifecycle fine-tuning settings, as well as analyzing the dynamic changes of data distribution in software repositories over time.
提供机构:
蒙特利尔大学
创建时间:
2023-12-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CodeLL是一个用于源代码终身学习的数据集,旨在支持代码数据与语言模型的协同进化。数据集包含多个仓库的代码变更历史,以.jsonl格式存储,记录导入、方法、函数调用等详细信息,适用于代码分析和下游任务。它基于GitHub公开仓库,提供数据挖掘和变更分析工具,采用MIT许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作