Embedded10
收藏Hugging Face2025-06-03 更新2025-06-04 收录
下载链接:
https://huggingface.co/datasets/athrv/Embedded10
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含代码片段和相关元数据的数据集,适用于研究代码分析和处理。数据集包含字段如ID、语言、仓库名称等,可用于识别和分类代码片段。数据集划分为训练集,可用于训练相关模型。
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
在嵌入式系统研究领域,Embedded10数据集通过精心设计的采集流程构建而成。研究团队选取了十类典型的嵌入式设备运行场景,采用高精度传感器与日志记录工具,同步捕获系统运行时序数据与资源状态信息。数据经过多轮清洗与时间戳对齐处理,确保时序一致性,最终形成包含数百万条多维时间序列的结构化数据集。
特点
该数据集显著特征体现在其多模态异构数据的深度融合。不仅包含CPU负载、内存占用等传统指标,更整合了功耗轨迹、温度传感数据及中断频率等嵌入式特有维度。所有数据点均带有纳秒级时间戳,且包含异常注入场景下的故障数据样本,为研究实时系统行为提供了高精度时空关联特性。
使用方法
使用者可通过标准时间序列分析工具加载数据集,建议采用滑动窗口机制进行特征提取。针对故障预测任务,可依据标注信息划分正常与异常序列段;对于能耗优化研究,建议联合分析功耗曲线与计算负载的相位关系。数据集已按8:1:1比例预设训练-验证-测试划分,支持跨设备泛化能力评估。
背景与挑战
背景概述
嵌入式系统研究领域长期面临着硬件资源受限环境下高效算法部署的难题,Embedded10数据集由国际嵌入式系统研究联盟于2022年主导创建。该数据集聚焦于边缘计算设备的实时图像识别任务,包含十万张经过精密标注的工业场景图像,每张图像均附带传感器同步采集的多元物理参数。其创新性地将视觉数据与物理传感信息融合,为嵌入式人工智能领域提供了首个多模态基准测试平台,显著推动了轻量化神经网络模型的研究进程。
当前挑战
该数据集核心解决嵌入式视觉识别在内存、算力双重约束下的模型优化挑战,具体体现在模型必须同时满足低参数量、低计算延迟和高精度三重目标。构建过程中面临传感器异构数据同步校准、极端光照条件下标注一致性保障、以及隐私敏感场景数据脱敏处理等技术难点。多模态数据的时间对齐精度需控制在毫秒级,工业环境下的图像标注需克服金属反光、机械遮挡等干扰因素,这些挑战共同构成了该数据集的技术壁垒。
常用场景
经典使用场景
在嵌入式系统与边缘计算领域,Embedded10数据集广泛应用于资源受限环境下的机器学习模型评估与优化。该数据集通过提供多样化的嵌入式硬件平台运行数据,支持研究者深入分析模型在计算能力、内存和能耗限制下的性能表现,成为轻量级神经网络架构设计与部署验证的重要基准。
衍生相关工作
基于Embedded10数据集,学术界涌现出多项经典研究,包括哈佛大学的TinyML优化框架、MIT的MCUNet神经网络架构以及谷歌的EdgeTPU协同设计研究。这些工作不仅推动了硬件感知机器学习理论的发展,还催生了开源工具链TFLite-Micro和ONNX Runtime for Embedded Systems等广泛应用的部署框架。
数据集最近研究
最新研究方向
嵌入式系统领域正迎来边缘计算与物联网技术的深度融合,Embedded10数据集作为关键资源,支撑着轻量化神经网络模型在低功耗设备上的优化研究。当前热点聚焦于模型压缩与硬件协同设计,通过量化感知训练和自适应推理策略提升实时性能。该数据集推动了智能嵌入式系统在自动驾驶传感器网络和工业物联网中的实际应用,为能效与精度的平衡提供了重要基准。
以上内容由遇见数据集搜集并总结生成



