CIDR (Curated Industrial Developer Repository)
收藏arXiv2026-05-12 更新2026-05-15 收录
下载链接:
https://fermatix.ai/#Contact
下载链接
链接失效反馈官方服务:
资源简介:
CIDR是由Fermatix AI构建的大规模工业源代码数据集,旨在弥补开源代码在工业软件多样性上的不足。该数据集包含2440个代码仓库,覆盖138种编程语言,总计3.73亿行代码,并附带结构化元数据,数据来源于12家工业合作伙伴的真实专有软件。数据集通过严格的多阶段流程收集、过滤和匿名化处理,确保数据质量与隐私保护。CIDR主要应用于代码智能、软件质量分析、开发者工具及相关软件工程研究,以支持更贴近工业实践的人工智能模型训练和任务解决。
CIDR is a large-scale industrial source code dataset constructed by Fermatix AI, designed to fill the gap in industrial software diversity of open-source codebases. This dataset includes 2,440 code repositories, spans 138 programming languages, totals 373 million lines of code, and is accompanied by structured metadata. The data is derived from real proprietary software from 12 industrial partners. The dataset is collected, filtered, and anonymized through a rigorous multi-stage process to ensure data quality and privacy protection. CIDR is primarily applied to code intelligence, software quality analysis, developer tools, and related software engineering research, to support AI model training and task solving that are more aligned with industrial practices.
提供机构:
Fermatix AI
创建时间:
2026-05-12
搜集汇总
数据集介绍

构建方式
CIDR数据集的构建基于一套严格的多阶段流程,首先通过专业网络、行业会议及双边协议等方式招募12家工业合作伙伴,仅纳入积极维护生产代码库且具有法律资质的组织。合作伙伴通过Git捆绑包、压缩归档或直接远程访问三种渠道提交代码库,其中Git捆绑包通过脚本执行裸镜像克隆以捕获完整版本历史。所有提交的代码库需经过元数据自动过滤(要求至少1000行代码)与人工代码审查两阶段筛选,审查中排除AI生成痕迹严重、代码质量未达专业标准或结构不完整的仓库。最后,通过自主研发的开源工具对通过审查的代码库实施匿名化处理,系统性地替换提交者身份、凭证、内部网络信息及敏感术语,并保留功能性语义与版本拓扑结构。
特点
CIDR包含2440个工业代码库,横跨138种编程语言,总计超过3.73亿行代码,版本历史覆盖2012至2026年。其核心特点在于数据来源的工业真实性,所有代码均来自企业级生产环境,弥补了现有开源数据集在工程规模、架构复杂度及领域多样性上的不足。数据集附带了结构化的元数据,涵盖仓库级别(如编程语言分布、提交次数、贡献者数量)及文件级别(如函数平均长度、文档注释比例、重复率)的统计信息。此外,CIDR采用确定性的匿名化策略,通过HMAC-SHA256哈希对敏感信息进行统一替换,确保了版本历史中的关联性不被破坏,同时保护了合作伙伴的隐私。
使用方法
CIDR适用于多种软件工程研究场景,包括代码语言模型的预训练与微调、软件缺陷预测、开发者行为分析以及静态分析工具的评估。研究人员可利用其完整的版本控制历史构建类似SWE-bench的智能体评估基准,通过提取问题-补丁对来测试自主编码代理在真实工业环境中的能力。此外,数据集内含的测试套件和仓库结构可为强化学习中的可验证奖励提供地面真实执行环境。访问CIDR需通过Fermatix AI官方网站提交资格申请并签署商业专有许可协议,明确禁止数据再分发与重识别行为,用户在发表成果时需引用该数据集。
背景与挑战
背景概述
在代码智能与软件工程研究领域,大规模、高质量的源代码语料库是驱动模型进步的基石。然而,现有公开数据集如CodeSearchNet和The Stack,其语料来源几乎完全依赖于GitHub等开源平台,难以捕捉企业级软件的规模复杂度与领域多样性。为弥补这一结构性缺失,Vladislav Savenkov及其所在的Fermatix AI团队于2026年发布了CIDR(Curated Industrial Developer Repository)数据集。该数据集通过与12家工业合作伙伴的直接协作,收集了2440个真实生产环境下的软件仓库,涵盖138种编程语言,总计超过3.73亿行代码,时间跨度从2012年至2026年。CIDR的核心贡献在于构建了可复现的多阶段数据采集与匿名化流水线,并附带了结构化元数据,为代码预训练、缺陷预测、开发者工具评估等研究提供了稀缺的工业级数据资源,在产业界与学术界之间架起了一座桥梁。
当前挑战
CIDR所应对的领域挑战在于,现有基于开源仓库的数据集存在系统性偏差:许可证偏见排除了大量专有软件,企业代码的庞大架构与长历史难以再现,以及Python、JavaScript等热门语言之外工业常用语言(如Lisp、AppleScript、Arduino)的显著缺失。在数据构建过程中,团队面临了多重实践难题:首先,企业数据共享涉及复杂的法律与合规流程,需逐一签署涵盖知识产权、AI生成披露与保密协议的数据共享合同,64家潜在伙伴中最终仅12家成功入驻。其次,为确保数据质量与隐私安全,团队开发了包含元数据自动过滤与人工代码审查的两阶段筛选流程,最终接受率仅为57.2%。匿名化环节尤为严峻,需在保留版本控制历史与代码语义完整性的前提下,通过多角色探测器(如gitleaks、正则、NER模型)替换作者身份、凭证及内部基础设施信息,并设置硬性门控检查防止泄露,但其计算开销与风格重识别风险仍构成持续性挑战。
常用场景
经典使用场景
在代码智能与软件工程研究领域,CIDR(Curated Industrial Developer Repository)数据集主要用于大规模工业级源代码的预训练与微调,支持代码补全、缺陷检测、代码摘要等下游任务。其核心应用场景涵盖软件缺陷预测与代码质量分析,研究者可借助其丰富的版本控制历史与结构化元数据,深入探究工业级软件库的开发演化模式与维护特征。此外,CIDR亦为静态分析与代码审查工具的评估提供了真实的企业级测试基准,弥补了现有开源数据集在工业软件复杂度、架构多样性与业务逻辑深度方面的不足,推动了更贴近实践的研究范式。
实际应用
CIDR数据集在实践层面为工业级开发者工具的开发与评估提供了关键支撑。具体而言,它可用于构建与优化面向企业环境的AI代码辅助系统,如自动化代码补全、智能代码审查及缺陷预警工具;其完整版本控制历史支持开发者行为建模与软件演进分析,有助于识别高效的工程协作模式;此外,CIDR还可用于构建SWE-bench风格的自主编码代理评估基准,通过历史提交记录衍生问题-补丁对,在真实工业场景中测试智能体的代码生成与修复能力。在强化学习领域,其结构化的测试套件为从可验证奖励中学习的范式(RLVR)提供了可靠的执行环境,推动了更具实用性的代码智能系统落地。
衍生相关工作
CIDR的发布催生了多项与之紧密关联的后续研究工作。在数据集构建方法学层面,其多阶段采集与确定性匿名化管线为工业数据共享树立了可复现的范式,激励了更多机构以类似协议开放企业级代码资产。在模型训练层面,CIDR成为预训练工业感知代码大语言模型的首选语料,研究者基于其丰富的元数据与版本历史开发了领域条件化的代码生成与需求到代码映射模型。在评估基准方面,CIDR启发了针对工业软件复杂性设计的SWE-bench风格评测框架,推动了代码智能评估从学术玩具示例向企业级真实场景的转变。此外,其严格的AI生成内容过滤政策也引发了关于数据集真实性与人机协作开发边界的广泛学术讨论。
以上内容由遇见数据集搜集并总结生成



