OpenLambdaVerse
收藏arXiv2025-08-03 更新2025-08-06 收录
下载链接:
https://github.com/disel-espol/openlambdaverse https://zenodo.org/records/16533581
下载链接
链接失效反馈官方服务:
资源简介:
OpenLambdaVerse数据集由厄瓜多尔瓜亚基尔海岸高等理工学院的研究人员创建,旨在提供一个最新的开源无服务器应用程序数据集。该数据集收集了使用Serverless Framework和至少一个AWS Lambda函数的GitHub仓库。通过对这些应用程序的分析,我们获得了关于无服务器架构的当前状态的重要见解,包括应用程序的大小和复杂性、所使用的语言和运行时、函数的触发方式、项目的成熟度和安全实践。OpenLambdaVerse为实践者和研究人员提供了一个有价值的、最新的资源,以更好地了解不断发展的无服务器工作负载。
The OpenLambdaVerse dataset was created by researchers from the Higher Polytechnic School of the Coast of Guayaquil, Ecuador, aiming to provide an up-to-date open-source serverless application dataset. It collects GitHub repositories that utilize the Serverless Framework and at least one AWS Lambda function. Through analysis of these applications, valuable insights into the current state of serverless architecture have been gained, including the size and complexity of applications, the programming languages and runtimes employed, the triggering mechanisms of functions, the maturity of projects, and security practices. OpenLambdaVerse offers a valuable and up-to-date resource for both practitioners and researchers to gain a better understanding of the evolving serverless workloads.
提供机构:
厄瓜多尔瓜亚基尔海岸高等理工学院
创建时间:
2025-08-03
搜集汇总
数据集介绍

构建方式
OpenLambdaVerse数据集的构建基于GitHub上使用Serverless Framework的公开仓库,采用多阶段筛选流程确保数据质量。首先通过GitHub API检索包含serverless.yml配置文件的仓库,随后过滤测试目录、重复项及框架官方仓库。进一步筛选包含有效许可证、活跃度高的非衍生项目,最终保留以AWS为目标平台的668个仓库。整个过程严格遵循GitHub API速率限制,并采用压缩格式发布51GB原始数据的6GB精简版本。
使用方法
研究者可通过Zenodo获取数据集压缩包,其中包含仓库克隆和元数据JSONL文件。元数据字段涵盖插件配置、运行时类型、事件触发器等53个技术指标。建议使用CLOC工具进行代码量分析,结合GitHub API获取的字节数数据交叉验证语言分布。对于特定研究方向,可重点分析serverless-offline(40%渗透率)等插件的使用模式,或通过事件触发器与LOC的0.05弱相关性探究架构复杂度。安全研究则可关注仅25个项目使用IAM权限插件的现象。
背景与挑战
背景概述
OpenLambdaVerse数据集由Ángel C. Chávez-Moreno和Cristina L. Abad于2025年创建,旨在填补无服务器计算领域的最新研究空白。该数据集聚焦于使用Serverless Framework和AWS Lambda的开源项目,通过GitHub API收集并筛选了668个有效仓库,涵盖了多种编程语言和运行时环境。作为Wonderless数据集的扩展,OpenLambdaVerse不仅更新了数据收集方法以适应GitHub REST API的最新限制,还深入分析了无服务器应用的架构复杂性、安全实践及事件触发机制。该数据集为研究者和开发者提供了关于无服务器技术现状的宝贵资源,推动了无服务器计算领域的实证研究。
当前挑战
OpenLambdaVerse数据集面临的主要挑战包括:1) 领域问题方面,无服务器应用的多样性和快速演化使得准确捕捉当前技术趋势变得困难,尤其是在处理冷启动延迟、性能优化和安全问题等方面;2) 构建过程中,数据收集受到GitHub API限制(如文件大小和请求频率),且需严格过滤测试项目、重复仓库和非活跃仓库以确保数据质量。此外,识别真正的无服务器应用(而非混合架构项目)也增加了数据清洗的复杂度。
常用场景
经典使用场景
OpenLambdaVerse数据集作为当前最新的无服务器应用数据集,广泛应用于无服务器计算架构的研究中。数据集通过收集和分析GitHub上使用Serverless Framework的AWS Lambda函数项目,为研究者提供了丰富的代码库和配置信息。这些信息不仅涵盖了多种编程语言和运行时环境,还包括了事件触发机制、插件使用情况以及安全实践等多个维度。数据集特别适用于分析无服务器应用的最新发展趋势,例如语言偏好、代码复杂度和项目成熟度等。
解决学术问题
OpenLambdaVerse数据集解决了无服务器计算领域中的多个关键学术问题。首先,它填补了现有数据集在时效性和覆盖范围上的不足,提供了最新的开源无服务器应用样本。其次,数据集通过详细的元数据和多维度的分析,帮助研究者深入理解无服务器应用的架构设计和实现细节。此外,数据集还揭示了当前无服务器应用中的安全实践和潜在漏洞,为相关研究提供了重要参考。
实际应用
在实际应用中,OpenLambdaVerse数据集为开发者和企业提供了宝贵的参考资源。开发者可以通过分析数据集中的项目,学习如何优化无服务器应用的性能和成本效益。企业则可以利用数据集中的趋势分析,指导其无服务器架构的设计和部署。此外,数据集还为云服务提供商提供了用户行为的洞察,帮助他们改进产品和服务。
数据集最近研究
最新研究方向
随着无服务器计算技术的快速发展,OpenLambdaVerse数据集为研究者和实践者提供了一个关于开源无服务器应用的最新资源。该数据集聚焦于使用Serverless Framework和AWS Lambda的GitHub仓库,通过先进的过滤和挖掘方法,揭示了当前无服务器架构的最新趋势。研究方向包括无服务器应用的规模与复杂性、编程语言和运行时的选择、函数触发机制、项目成熟度以及安全实践。这些研究不仅填补了无服务器生态系统的最新动态空白,还为开发者提供了优化性能、成本效益和安全性的重要参考。OpenLambdaVerse的发布,标志着无服务器计算领域的研究进入了一个更加精细化和实用化的新阶段。
相关研究论文
- 1OpenLambdaVerse: A Dataset and Analysis of Open-Source Serverless Applications厄瓜多尔瓜亚基尔海岸高等理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成



