five

CodeLL|代码分析数据集|软件生命周期数据集

收藏
arXiv2023-12-20 更新2024-06-21 收录
代码分析
软件生命周期
下载链接:
https://github.com/martin-wey/CodeLL-Dataset
下载链接
链接失效反馈
资源简介:
CodeLL是一个专注于代码变化的生命周期学习数据集,由蒙特利尔大学创建。该数据集包含从软件遗产平台挖掘的71个机器学习项目,总计2,483个版本和近100万个文件。数据集通过设计映射启发式方法,分析方法内容和API调用如何在软件存储库的整个生命周期中演变。CodeLL旨在支持代码数据和语言模型之间的共同进化,适用于研究语言模型在生命周期微调设置中学习代码变化的行为,以及分析软件存储库中数据分布随时间的动态变化。
提供机构:
蒙特利尔大学
创建时间:
2023-12-20
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

ApolloScape Dataset

ApolloScape数据集是用于自动驾驶研究的开源数据集,包括轨迹预测、3D激光雷达物体检测与跟踪、场景解析、车道分割、自定位、3D车辆实例、立体视觉和修复等多个方面,旨在促进自动驾驶技术的创新和发展。

github 收录

有害气体检测设备调试自动化系统市场集中度评价数据

有害气体检测设备调试自动化系统作为保障工业安全生产、预防重大事故的核心技术装备,在石油化工、矿山开采、市政管网和环保监测等领域发挥着不可替代的作用。特别是在应对有毒有害气体泄漏、爆炸极限预警等高风险场景时,其智能化调试、多参数协同分析的特性,不仅能显著提升检测精度和响应速度,还能通过预防性维护大幅降低安全事故发生率。随着工业安全法规日趋严格和智能化监测技术的快速发展,该系统市场需求呈现加速增长态势。评价该市场的集中度,对于把握行业竞争格局、优化技术研发方向、制定精准的市场开发策略以及推动智能安全监测技术创新具有重要战略价值。1.数据采集:收集公司有害气体检测设备调试自动化系统在不同地区的销售数据,具体包括:时间、系统名称、区域、客户编号、销售额/万元、总销售额/万元。 2.数据处理:去除异常值和重复数据,确保数据的准确性和可靠性。将客户的销售额数据转换为市场份额(Si),即销售额占总销售额的比例。 3.具体计算过程和公式:市场份额计算:Si = 客户销售额 / 总销售额,市场集中度指数(CR)计算:CR = ∑(Si)^2,其中Si代表第i个客户的市场份额(销售额占总销售额的比例)。 4.数据分类分级应用:根据CR指数的大小,CR指数的取值范围为0到1,将市场集中度分为高集中度(0.7≤CR≤1)、中集中度(0.4≤CR<0.7)和低集中度(0≤CR<0.4)。

浙江省数据知识产权登记平台 收录

中国1km分辨率年平均气温数据(1901-2023年)

中国1km分辨率年平均气温数据(1901-2023年)根据西北农林科技大学彭守璋研究员团队研制的1901-2023年中国1km分辨率逐月平均气温数据集进行年度均值合成后除以10将单位换算为℃得到。数据包含多个TIF文件,每个TIF文件为对应年份的年平均气温,平均气温单位为℃。彭守璋研究员在《Earth System Science Data》以论文形式发布了1 km monthly temperature and precipitation dataset for China from 1901 to 2017数据。论文链接https://doi.org/10.5194/essd-11-1931-2019。

国家地球系统科学数据中心 收录