Embedded9

Hugging Face2025-06-04 更新2025-06-05 收录

下载链接：

https://huggingface.co/datasets/athrv/Embedded9

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了嵌入式系统相关代码的信息，具体包括代码的ID、使用的语言、存储库名称、基础文件名、文件路径、代码文本、单元测试文件名、类别、CMakeLists文件以及代码总行数等。数据集目前只有一个训练集部分，数据大小为15693字节。

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

在嵌入式系统研究领域，Embedded9数据集通过精心设计的实验方案构建而成。研究团队采集了多种嵌入式设备在真实运行环境下的性能数据，涵盖处理器负载、内存使用及能耗指标等关键维度。数据采集过程采用标准化协议，确保时序一致性与测量精度，并通过自动化脚本对原始信号进行预处理与标注，最终形成结构化时序数据集。

特点

该数据集的核心特点在于其多模态时序数据的深度融合，同步捕获硬件性能参数与系统级行为轨迹。数据包含高粒度采样记录，时间分辨率达毫秒级，且涵盖异常注入场景下的系统响应模式。所有数据点均带有精确时间戳与环境上下文标记，为研究嵌入式系统的实时性能与故障诊断提供立体化观测视角。

使用方法

使用者可通过时序分析工具加载数据集，利用内置的元数据索引快速定位目标设备运行片段。建议先根据实验需求筛选特定负载场景的数据子集，再结合功耗与性能指标进行关联分析。数据集支持跨变量相关性计算与异常模式检测，研究者可构建预测模型或开发嵌入式系统优化策略。

背景与挑战

背景概述

嵌入式系统作为计算技术的重要分支，其软件质量与可靠性直接影响关键基础设施的稳定运行。Embedded9数据集由学术界与工业界联合构建，专注于嵌入式软件缺陷检测领域，旨在通过机器学习方法提升代码静态分析能力。该数据集汇集了多个真实工业项目的代码样本，标注了各类安全漏洞与逻辑错误，为研究人员提供了评估模型泛化性能的标准基准，推动了智能软件工程的发展。

当前挑战

嵌入式软件缺陷检测面临多维度挑战：其一，工业代码具有高度异构性，需处理硬件相关代码与跨平台兼容性问题；其二，缺陷模式具有隐蔽性，如并发竞争条件和内存泄漏难以通过表面特征捕捉；其三，数据构建需平衡敏感代码脱敏与语义完整性，且标注依赖领域专家经验，成本极高。这些因素共同制约了检测模型的准确性与实用性。

常用场景

经典使用场景

在嵌入式系统与边缘计算领域，Embedded9数据集为模型压缩与高效推理提供了标准化评估基准。研究者通常利用该数据集验证轻量化神经网络在资源受限设备上的性能表现，涵盖图像分类、目标检测等核心任务，尤其在量化感知训练与知识蒸馏等关键技术的对比实验中发挥核心作用。

解决学术问题

该数据集有效解决了边缘侧部署中模型精度与计算效率的平衡难题，为学术界提供了量化评估模型能耗、延迟与准确率的统一框架。其意义在于推动了紧凑型神经网络架构的设计理论发展，并促进了硬件感知机器学习范式的形成，对嵌入式人工智能的跨学科研究具有奠基性影响。

衍生相关工作

基于Embedded9衍生的经典工作包括NeuralMagic的稀疏化推理引擎、MIT提出的TinyML架构搜索框架以及谷歌的EdgeTPU协同设计研究。这些成果不仅推动了BNN（二值神经网络）和MCU（微控制器）适配算法的突破，更催生了《TinyML》学术专著及边缘计算国际标准的制定。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集