TuxKConfig
收藏arXiv2025-05-12 更新2025-05-14 收录
下载链接:
https://openml.org/search?type=data&status=active&id=46749
下载链接
链接失效反馈官方服务:
资源简介:
TuxKConfig数据集是由Univ Rennes Inria, CNRS, IRISA Rennes, France的研究团队创建的,旨在为Linux内核配置的性能和演化分析提供一个全面的、大规模的数据集。该数据集包含了从4.13到5.8版本的多个Linux内核配置,超过240,000个内核配置,每个配置都详细记录了编译结果和二进制大小。数据集通过OpenML平台提供,支持Python代码访问,以便进行性能预测、特征子集选择、基于机器学习的预测模型和内核版本之间的迁移学习等研究。
The TuxKConfig dataset was developed by a research team affiliated with Univ Rennes Inria, CNRS, IRISA Rennes, France. It aims to offer a comprehensive, large-scale dataset for performance and evolutionary analysis of Linux kernel configurations. This dataset includes over 240,000 Linux kernel configurations spanning versions 4.13 to 5.8, with each configuration documenting detailed compilation outcomes and binary sizes. Hosted on the OpenML platform, the dataset supports access via Python code, facilitating research tasks including performance prediction, feature subset selection, machine learning-based predictive modeling, and transfer learning across different kernel versions.
提供机构:
Univ Rennes Inria, CNRS, IRISA Rennes, France
创建时间:
2025-05-12
搜集汇总
数据集介绍

构建方式
在Linux内核配置领域,面对超过15,000个相互依赖且快速演变的配置选项,TuxKConfig数据集的构建采用了系统化的自动化流程。研究团队通过TUXML工具在Docker环境中实现了配置生成、编译和测量的全自动化,覆盖了4.13至5.8共7个具有里程碑意义的内核版本。利用randconfig工具生成符合Kconfig依赖关系的随机配置,每个版本采集的配置数量从21,923到92,471不等,总计达243,232个配置样本。数据预处理阶段采用特征过滤、三态值二值化、衍生特征构建等方法,最终形成包含版本标识、编译时间戳、选项二进制值及性能指标的结构化CSV文件。
特点
作为目前规模最大的可配置系统数据集,TuxKConfig以其多维度的特性脱颖而出。数据集不仅横跨7个Linux内核版本,记录超过24万种配置组合,更创新性地将配置选项与编译结果、二进制大小等量化指标相关联。其显著特点在于完整呈现了配置空间的演化轨迹,包括选项的新增、废弃及依赖关系变化。每个配置样本包含12,000余个二进制特征,并标注有vmlinux文件大小、编译耗时等连续型指标,为研究配置选项间的复杂交互作用提供了丰富素材。特别设计的tinyconfig基线配置则为性能评估提供了可靠参照。
使用方法
该数据集通过OpenML平台提供标准化访问接口,研究者仅需数行Python代码即可载入数据进行探索性分析。典型应用场景包括:使用线性回归或梯度提升树等算法建立内核二进制大小预测模型;通过随机森林特征重要性分析识别关键配置选项;实施跨版本迁移学习以降低模型训练成本。数据集已预置特征对齐和缺失值处理流程,支持直接输入机器学习管道。配套的Jupyter Notebook示例展示了从数据加载、特征工程到模型评估的完整工作流,显著降低了研究门槛。对于特定研究需求,用户可灵活选择单个版本或跨版本组合进行分析,亦可基于预处理后的衍生特征构建定制化研究方案。
背景与挑战
背景概述
TuxKConfig数据集由法国Inria、CNRS、IRISA等机构的研究人员Heraldo Borges、Mathieu Acher等人于2025年提出,旨在解决Linux内核配置空间的复杂性问题。该数据集涵盖了从4.13到5.8共7个Linux内核版本的超过24万种配置,记录了编译结果和二进制大小等关键指标。其核心研究问题聚焦于如何在大规模配置空间中实现性能预测与演化分析,为软件工程领域的配置优化、机器学习模型训练及跨版本迁移学习提供了重要基础。该数据集通过OpenML平台开源,显著推动了可配置系统领域的研究进展。
当前挑战
TuxKConfig面临的挑战主要体现在两方面:领域问题方面,Linux内核配置选项超过15,000个且存在复杂依赖关系,导致性能预测和优化面临组合爆炸问题;构建过程方面,需处理多版本配置语法差异、自动化编译失败案例过滤,以及跨版本特征对齐等工程难题。数据集构建需平衡随机采样覆盖率与计算成本,同时解决版本迭代导致的选项增减和语义漂移问题。
常用场景
经典使用场景
在Linux内核配置优化研究中,TuxKConfig数据集被广泛应用于性能预测模型的构建与验证。该数据集通过涵盖多个内核版本的配置选项及其编译结果,为研究者提供了丰富的实验材料。特别是在嵌入式系统开发中,研究者利用该数据集分析不同配置对内核二进制大小的影响,从而优化资源受限设备的性能。数据集的大规模特性使得机器学习模型能够更准确地捕捉配置选项之间的复杂交互关系。
解决学术问题
TuxKConfig数据集有效解决了Linux内核配置空间的高维性和复杂性带来的研究挑战。通过提供跨版本的配置数据,该数据集支持了特征选择、性能预测和迁移学习等关键研究问题。例如,研究者可以利用该数据集分析配置选项对二进制大小的贡献度,从而识别出影响性能的关键因素。此外,数据集还支持跨版本配置行为的比较研究,为内核配置的长期演化分析提供了数据基础。
衍生相关工作
基于TuxKConfig数据集,研究者已经开展了一系列衍生工作。其中包括开发新型的迁移学习算法,用于跨内核版本的配置性能预测;构建可解释的机器学习模型,以揭示配置选项与性能指标之间的因果关系;以及设计高效的配置搜索算法,用于在多目标优化场景中找到帕累托最优解。这些工作显著推进了可配置系统领域的研究进展,并为Linux内核维护者提供了实用的决策支持工具。
以上内容由遇见数据集搜集并总结生成



