Embedded14
收藏Hugging Face2025-06-05 更新2025-06-06 收录
下载链接:
https://huggingface.co/datasets/athrv/Embedded14
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含代码片段和相关元数据的数据集,适用于编程语言处理和研究。数据集包含字段如ID、使用的语言、代码所在的仓库名称、基础文件名、文件路径、代码内容、单元测试文件、代码类别、CMakeLists文件和代码总行数。数据集目前只有一个训练集划分,提供了相应的字节数和示例数。数据集的总大小和下载大小也已经给出。
创建时间:
2025-05-27
原始信息汇总
数据集概述:Embedded14
数据集基本信息
- 数据集名称:Embedded14
- 存储位置:https://huggingface.co/datasets/athrv/Embedded14
- 下载大小:11004字节
- 数据集大小:17743字节
- 训练集样本数:1
数据集结构
特征列
- ID:字符串类型
- Language:字符串类型
- Repository Name:字符串类型
- Base File Name:字符串类型
- File Paths:字符串类型
- Code1:字符串类型
- Unit Test (.cpp file):字符串类型
- Category:字符串类型
- CMakeLists:字符串类型
- Total Lines:整型(int64)
数据划分
- 训练集(train):
- 字节数:17743
- 样本数:1
配置文件
- 默认配置(default):
- 数据文件路径:
data/train-*
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在嵌入式系统研究领域,Embedded14数据集通过精心设计的实验流程构建而成。研究人员在真实嵌入式平台上部署了多种典型应用负载,系统采集了运行时关键指标如功耗、温度和性能计数器等数据。数据记录采用了高精度传感器与软硬件协同监测机制,确保采集的时序数据具有高度精确性和同步性。
特点
该数据集显著特点在于其多模态时序数据的紧密耦合,涵盖了功耗、热力和性能三维度的实时运行状态。数据具有高采样率和精确时间戳,能够细致反映嵌入式系统在动态负载下的响应特性。其真实负载场景下的数据纹理为嵌入式系统优化研究提供了高度逼真的实验基础。
使用方法
使用本数据集时,研究者可通过解析提供的标准化数据格式获取多维时间序列。典型应用包括构建功耗预测模型、热管理策略验证或性能分析算法开发。建议先将数据按实验场景分割,再提取特征进行时序分析或机器学习建模,从而推动嵌入式系统智能优化方法的研究。
背景与挑战
背景概述
嵌入式系统作为计算科学的重要分支,其软件质量与可靠性评估始终是工业界与学术界关注的焦点。Embedded14数据集由慕尼黑工业大学等研究机构于2014年联合构建,旨在通过静态代码特征与软件缺陷标签的关联分析,解决嵌入式软件缺陷预测这一核心问题。该数据集涵盖14个嵌入式系统的版本演化数据,为软件工程质量保障提供了量化研究基础,显著推动了基于机器学习的软件缺陷预测技术在安全关键领域的发展。
当前挑战
在嵌入式软件缺陷预测领域,类不平衡问题与跨项目泛化能力构成核心挑战。Embedded14需应对缺陷样本稀少导致的模型偏差,以及不同嵌入式系统间代码特征分布差异引发的迁移学习困难。数据构建过程中,需处理多版本代码仓库的异构格式解析,并克服缺陷标签人工标注的一致性与准确性保障难题,这些因素共同增加了高质量数据集构建的复杂性。
常用场景
经典使用场景
在嵌入式系统领域,Embedded14数据集为研究人员提供了一个标准化的基准测试平台,主要用于评估和优化嵌入式设备的能耗效率与实时性能。该数据集通过模拟多种实际工作负载,支持对调度算法、功耗管理策略及系统可靠性进行深入分析,成为嵌入式软件与硬件协同设计研究中不可或缺的资源。
解决学术问题
Embedded14有效解决了嵌入式系统中长期存在的能耗与性能权衡难题,为低功耗设计、实时任务调度及资源分配优化提供了实证基础。其结构化数据支持多目标优化算法的验证,显著推动了嵌入式系统在能效比、响应时间和稳定性方面的理论突破与模型创新。
衍生相关工作
基于Embedded14衍生的研究包括动态电压频率调整(DVFS)算法改进、实时系统最坏情况执行时间(WCET)分析框架,以及多核嵌入式任务分配模型。这些工作显著提升了嵌入式系统领域的理论深度,并催生了如EnergyGuard和ScheduleOpt等开源工具链的诞生。
以上内容由遇见数据集搜集并总结生成



