five

Embedded13

收藏
Hugging Face2025-05-26 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/athrv/Embedded13
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了嵌入式系统相关代码的信息,包括代码的ID、使用的语言、仓库名称、基本文件名、源文件路径、头文件路径、源代码文件内容、头文件内容、单元测试覆盖率、代码类别、CMakeLists文件内容以及总行数。数据集分为训练集,共有558个示例,大小为14,759,390字节。
创建时间:
2025-05-22
原始信息汇总

数据集概述:Embedded13

数据集基本信息

  • 数据集名称:Embedded13
  • 存储位置:https://huggingface.co/datasets/athrv/Embedded13
  • 下载大小:488592字节
  • 数据集大小:3450627字节
  • 训练集样本数:166个
  • 训练集大小:3450627字节

数据集结构

特征列

  • ID:字符串类型
  • Language:字符串类型
  • Repository Name:字符串类型
  • Base File Name:字符串类型
  • C File Path:字符串类型
  • H File Path:字符串类型
  • Code1 (.c file):字符串类型
  • Code2 (.h file):字符串类型
  • CPP File Path:字符串类型
  • Unit Test (.cpp file):字符串类型
  • Category:字符串类型
  • CMakeLists:字符串类型
  • Total Lines:整型(int64)

数据划分

  • 训练集(train):包含166个样本

配置文件

  • 默认配置(default)
    • 数据文件路径:data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
Embedded13数据集聚焦于嵌入式系统开发领域,其构建过程体现了对代码工程实践的深度挖掘。该数据集通过系统化采集开源仓库中的嵌入式项目资源,精心整合了包含代码文件、单元测试、构建脚本在内的多维度开发要素。每个数据样本均以项目为单位进行结构化处理,完整保留了文件路径、代码内容、测试用例等关键信息,并通过CMakeLists文件维持项目间的构建关联性。
特点
该数据集最显著的特点在于其高度专业化的嵌入式开发属性,涵盖了C++语言编写的核心代码与对应单元测试的完整配对。数据样本中精确标注了代码行数、文件目录结构等技术指标,为研究嵌入式软件工程提供了细粒度的分析基础。特别值得注意的是,数据集通过保留原始项目中的CMake配置,确保了代码环境可复现性这一嵌入式开发的关键需求。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,其标准化的字段结构支持快速开展代码分析、测试生成等研究。使用时应重点关注Code1与Unit Test字段的配对关系,利用CMakeLists字段还原项目构建环境。对于嵌入式系统领域的跨项目研究,建议结合Repository Name和Category字段进行样本筛选,以获得特定方向的开发模式洞察。
背景与挑战
背景概述
Embedded13数据集聚焦于嵌入式系统开发领域,由HuggingFace平台于近年推出,旨在为嵌入式软件工程研究提供丰富的代码资源。该数据集收录了多种编程语言编写的嵌入式项目代码,涵盖代码文件、单元测试、构建配置等关键元素,反映了现代嵌入式开发中硬件与软件协同设计的复杂性。其多维度结构化特征为代码生成、缺陷检测、跨平台移植等研究提供了重要基准,推动了嵌入式软件工程与机器学习交叉领域的发展。
当前挑战
该数据集面临的核心挑战在于嵌入式领域特有的代码异构性问题,不同硬件架构导致的代码变体增加了机器学习模型泛化难度。构建过程中需处理私有代码脱敏与知识产权平衡问题,单元测试与CMake配置文件的完整性验证也构成技术瓶颈。数据标注方面存在嵌入式领域专业术语标准化缺失的困境,且跨语言项目间的可比性评估缺乏统一指标体系。
常用场景
经典使用场景
在嵌入式系统开发领域,Embedded13数据集以其独特的结构成为代码分析与测试生成研究的基石。该数据集整合了多种编程语言的嵌入式项目代码及其对应的单元测试文件,为研究者提供了跨语言、跨项目的标准化对比平台。通过解析代码文件路径、CMake配置与测试用例的对应关系,研究人员能够深入探究嵌入式软件中硬件相关代码的抽象模式。
衍生相关工作
基于Embedded13的元研究催生了《嵌入式系统跨语言缺陷预测》等里程碑式论文,其数据架构启发了后续EmbeddedX等数据集的构建原则。该数据集支撑的代码表征学习模型EmbedCode被广泛应用于IDE插件开发,相关技术已延伸至Rust语言嵌入式生态的静态分析工具链。
数据集最近研究
最新研究方向
在嵌入式系统开发领域,Embedded13数据集以其独特的代码库结构和单元测试文件配置,为软件工程研究提供了新的视角。该数据集整合了多种编程语言的嵌入式项目实例,涵盖从代码实现到构建系统的完整开发生命周期。当前研究热点聚焦于如何利用此类结构化代码数据提升自动化测试生成效率,特别是在持续集成环境中单元测试的智能生成与优化方面。随着物联网设备复杂度的提升,该数据集为研究嵌入式软件质量保障与跨平台兼容性问题提供了重要基准,相关成果已开始应用于工业级嵌入式系统的敏捷开发实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作