Linux Firmware Corpus (LFwC)

github2024-07-05 更新2024-07-16 收录

下载链接：

https://github.com/fkie-cad/linux-firmware-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个与论文Unpacked, Analyzed, and Improved: Sound Firmware Corpora for Vulnerability Research相关的数据集。该数据集基于2023年6月前的数据，包含10,913个去重和解包的固件镜像，来自十个已知制造商。它涵盖了2,365种独特设备，跨越22个类别。数据集旨在支持科学研究，提供了所有用于可复制性的脚本、工具和虚拟机。

This is a dataset associated with the paper *Unpacked, Analyzed, and Improved: Sound Firmware Corpora for Vulnerability Research*. Based on data collected prior to June 2023, this dataset contains 10,913 deduplicated and unpacked firmware images from ten recognized manufacturers, covering 2,365 unique devices across 22 categories. Aimed at supporting scientific research, the dataset provides all necessary scripts, tools and virtual machines for reproducibility.

创建时间：

2024-06-16

原始信息汇总

Linux Firmware Corpus (LFwC)

数据集概述

名称：Linux Firmware Corpus (LFwC)
时间范围：截至2023年6月
数据量：包含10,913个去重和解包的固件镜像
制造商数量：来自十个已知制造商
设备覆盖：涵盖2,365个独特设备，跨越22个类别

数据集更新

更新频率：计划至少每年更新一次，以确保可重复性和样本时效性

硬件要求

配置1：全量LFwC语料库的高端服务器设置

存储需求：样本需要354 GiB，解包和内容分析需要2.5 TiB
硬件规格：
- CPU：2x Intel Xeon E5-2650 v3@ 2.30 GHz, NUMA
- RAM：157 GiB DDR4 @ 2133MHz
- 主板：Dell 0HFG24, LGA 2011 (PowerEdge R430)
- SSD (OS)：512 GiB (Ubuntu 22.04.04 LTS)
- HDD (数据)：4 TiB, 挂载在 /media/data
- Python：3.10.12
- FACT：Commit 0984d0ca

配置2：快速验证和小型语料库子集的虚拟机设置

硬件规格：
- CPU：4个空闲CPU核心，支持VT-x或AMD-v
- RAM：16 GiB
- 存储：100 GiB（最好为SSD）
- 主机操作系统：任意桌面Linux (x86_64)
- VirtualBox：>=7.0
- Vagrant：~2.4（已验证）

仓库布局

downscaling：用于配置2的语料库缩减脚本
notebooks：用于交互式探索数据集的Jupyter笔记本
prepare：安装此仓库的所有依赖项
replication：LFwC复制脚本
scrapers：LFwC的原始来源抓取器
Vagrantfile：Vagrant虚拟机配置文件

搜集汇总

数据集介绍

构建方式

Linux Firmware Corpus (LFwC) 数据集的构建基于截至2023年6月的数据，通过从十家知名制造商收集的10,913个去重和解包的固件镜像构建而成。该数据集涵盖了2,365种独特设备，跨越22个类别，包括近期和历史的固件版本。构建过程中，采用了开源的Firmware Analysis and Comparison Tool (FACT) 进行固件解包，确保解包过程的验证成功。

特点

LFwC 数据集的特点在于其广泛性和多样性，不仅包含了多个制造商的固件，还涵盖了多种设备类别和历史版本，为固件漏洞研究提供了丰富的资源。此外，数据集的构建过程透明且可重复，所有脚本、工具和虚拟机均公开发布，确保了科学研究的可靠性。

使用方法

使用 LFwC 数据集时，用户可以选择两种配置：高配置服务器用于完整数据集的分析，或使用虚拟机进行快速验证和小规模子集的分析。对于高配置服务器，需准备354 GiB的样本存储和2.5 TiB的解包分析存储，分析过程可能需要数月时间。虚拟机配置则更为简便，仅需16 GiB内存和100 GiB存储，适合快速部署和结果验证。

背景与挑战

背景概述

Linux Firmware Corpus (LFwC) 是由研究人员在2023年构建的一个专门用于漏洞研究的数据集。该数据集基于截至2023年6月的数据，包含了来自十个知名制造商的10,913个去重和解包的固件镜像。这些固件涵盖了2,365种独特的设备，跨越22个类别，包括了近期和历史的固件版本。LFwC的构建旨在评估科学上可靠的固件语料库的可行性，并提供了一个开源的固件解包流程，基于Firmware Analysis and Comparison Tool (FACT)，以确保解包的成功验证。该数据集的发布旨在促进固件分析和漏洞研究领域的发展，特别是在固件安全性和可复现性方面。

当前挑战

LFwC在构建过程中面临了多重挑战。首先，固件数据的获取和去重是一个复杂的过程，涉及多个制造商的固件镜像，这些镜像可能包含重复或过时的版本。其次，固件的解包和分析需要大量的计算资源，特别是对于全量数据集，需要配置高端服务器，这不仅增加了成本，还延长了分析时间。此外，固件数据的实时更新也是一个挑战，确保数据集的样本时效性和可复现性需要持续的努力和资源投入。最后，固件数据的法律访问限制也增加了数据集的获取难度，尽管研究人员尽可能分享了可公开的数据，但仍需遵守相关法律法规。

常用场景

经典使用场景

Linux Firmware Corpus (LFwC) 数据集的经典使用场景主要集中在固件漏洞研究领域。研究者利用该数据集进行固件的解包和分析，以评估固件中的潜在安全漏洞。通过使用 Firmware Analysis and Comparison Tool (FACT)，研究者能够系统地对固件进行验证解包，从而确保分析结果的准确性和可靠性。此外，该数据集还支持大规模的固件比较研究，有助于识别不同固件版本之间的安全差异。

解决学术问题

LFwC 数据集解决了固件研究中长期存在的数据集不完整和不一致的问题。通过提供一个经过去重和解包处理的固件图像集合，该数据集为学术界提供了一个标准化的研究平台。这不仅促进了固件漏洞检测技术的发展，还为固件安全性的系统性评估提供了坚实的基础。此外，LFwC 的定期更新机制确保了研究样本的时效性，从而提高了研究结果的现实意义和应用价值。

衍生相关工作

LFwC 数据集的发布催生了一系列相关的经典工作。例如，基于该数据集的研究论文在 Network and Distributed System Security (NDSS) Symposium 2025 上被接受，展示了其在固件安全研究中的重要地位。此外，该数据集还启发了多个固件分析工具的开发，如改进版的 FACT 工具，进一步提升了固件分析的自动化和效率。这些衍生工作不仅丰富了固件安全研究的理论基础，还推动了相关技术的实际应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集