Wasm Binaries Dataset
收藏arXiv2025-03-27 更新2025-04-01 收录
下载链接:
http://arxiv.org/abs/2503.21240v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究收集了超过4.6K个实际部署在互联网上的独特Wasm二进制文件,组成了至今为止最大的数据集。该数据集通过两阶段的数据收集过程获得,第一阶段是数据采集,第二阶段是数据清洗。数据集包含了最新的Wasm二进制文件以及它们的历史版本,旨在全面了解Wasm二进制文件在现实世界中的状态,为Wasm生态系统的进一步发展提供依据。
This study collected over 4.6K unique WebAssembly (Wasm) binaries actively deployed on the public Internet, forming the largest dataset of its kind to date. This dataset was obtained through a two-stage data processing workflow: the first stage involves raw data acquisition, and the second stage entails data cleaning. The dataset includes both the latest versions of these Wasm binaries and their historical releases, aiming to comprehensively understand the real-world status of Wasm binaries and provide a solid basis for the further development of the Wasm ecosystem.
提供机构:
香港理工大学
创建时间:
2025-03-27
搜集汇总
数据集介绍

构建方式
Wasm Binaries Dataset的构建采用了分阶段的数据收集与清洗策略。在数据收集阶段,研究团队利用urlscan.io这一先进的网页扫描工具,覆盖超过70万个网站,获取了所有以.wasm为后缀的文件URL。随后,通过部署全球代理池,爬取最新的Wasm二进制文件,并借助Internet Archive获取历史版本。在数据清洗阶段,通过MD5去重和wasm2wat工具验证文件有效性,最终构建了包含4,606个独特有效Wasm二进制文件的数据集。
使用方法
该数据集适用于多方面的研究,包括但不限于Wasm生态系统的测量研究、安全分析、性能优化等。研究人员可以通过分析文件元信息,探索Wasm的源语言分布和编译工具链的使用情况。安全专家可以利用数据集检测恶意Wasm文件或漏洞。开发者可以参考数据集中的实际案例,优化自己的Wasm应用。数据集的使用方法包括文件解析、元信息提取、语义分析等,建议结合Wasm-specific工具如wasm2wat进行深入研究。
背景与挑战
背景概述
WebAssembly(Wasm)作为一种新兴的低级编程语言,自2017年提出以来,逐渐成为Web开发中的重要技术。Wasm以其紧凑的二进制格式、接近原生的执行速度和跨平台的可移植性,被广泛应用于浏览器中的计算密集型任务,如3D图形渲染和视频解码。由香港理工大学、北京邮电大学、华中科技大学和北京大学的研究团队共同创建的Wasm Binaries Dataset,旨在填补当前对实际部署的Wasm二进制文件进行大规模测量研究的空白。该数据集收集了超过4,600个独特的Wasm二进制文件,为研究Wasm生态系统的现状提供了宝贵资源。
当前挑战
Wasm Binaries Dataset面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,Wasm二进制文件的广泛应用带来了性能优化、安全性和兼容性等问题。例如,如何确保Wasm二进制文件在跨平台环境中的高效执行,以及如何防范潜在的安全威胁(如恶意代码注入和漏洞利用)。在构建过程中,研究团队遇到了数据收集和清洗的挑战。由于Wasm二进制文件分布在广泛的网络环境中,如何高效地爬取和验证这些文件的真实性和有效性成为一大难题。此外,数据集中存在大量重复和无效的二进制文件,需要通过复杂的去重和验证流程进行处理。
常用场景
经典使用场景
Wasm Binaries Dataset 主要用于研究WebAssembly(Wasm)在真实世界中的应用情况。该数据集通过大规模收集和分析实际部署的Wasm二进制文件,帮助研究人员理解Wasm的生态系统、使用模式以及潜在的安全威胁。经典使用场景包括对Wasm二进制文件的元数据、源编程语言、安全威胁和实际用途进行系统性测量和分析。
解决学术问题
该数据集解决了多个学术研究问题,包括Wasm二进制文件的元信息分析、源编程语言和编译工具链的识别、安全威胁的检测以及实际用途的分类。通过回答这些问题,数据集为Wasm生态系统的研究提供了基础数据,帮助学术界理解Wasm的现状和发展趋势。
实际应用
在实际应用中,Wasm Binaries Dataset 可用于优化浏览器和编译工具链的性能,提升Wasm二进制文件的安全性,以及指导开发者选择合适的编程语言和工具链。此外,该数据集还可用于检测和预防恶意Wasm二进制文件的传播,保护用户免受安全威胁。
数据集最近研究
最新研究方向
随着WebAssembly(Wasm)在Web应用中的普及,Wasm Binaries Dataset成为研究热点。该数据集聚焦于真实环境中部署的Wasm二进制文件,通过大规模测量研究揭示了其在工业应用中的现状。前沿研究方向包括Wasm的安全性分析、性能优化以及生态系统多样性提升。热点事件涉及Wasm在加密挖矿恶意软件中的应用,以及其在图形处理和字体渲染等计算密集型任务中的优势。该数据集的研究不仅为开发者提供了最佳实践建议,还为Wasm维护者和研究者指明了未来的发展方向,对推动Web技术的进步具有重要意义。
相关研究论文
- 1The Promise and Pitfalls of WebAssembly: Perspectives from the Industry香港理工大学 · 2025年
以上内容由遇见数据集搜集并总结生成



