code_fresh_0825_1225
收藏Hugging Face2026-03-01 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/allenai/code_fresh_0825_1225
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多配置的源代码文件集合,涵盖多种编程语言(如C、C++、Java、Python等)。每个配置对应一种特定编程语言,包含两个层面的信息:1) 仓库元数据:包括仓库名称、许可证、语言、描述、URL、星标数、分支数、提交数、创建和更新时间戳;2) 文件级数据:包括文件名、路径、内容、语言和标记数量。所有配置共享相同的特征结构,但数据规模和示例数量因语言而异。数据集仅包含训练集分割,适用于代码生成、语言模型训练、代码分析等自然语言处理和软件工程任务。
提供机构:
Allen Institute for AI
创建时间:
2026-02-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: code_fresh_0825_1225
- 发布者: allenai
- 地址: https://huggingface.co/datasets/allenai/code_fresh_0825_1225
数据集结构
本数据集包含多个配置(config),每个配置对应一种编程语言或标记语言。所有配置共享相同的特征(features)结构,并仅包含训练集(train split)。
通用特征
每个数据样本包含以下特征:
id: 字符串类型,唯一标识符。repo_name: 字符串类型,仓库名称。repo_license: 字符串类型,仓库许可证。repo_language: 字符串类型,仓库主要语言。repo_description: 字符串类型,仓库描述。repo_url: 字符串类型,仓库URL。repo_stars: int64类型,仓库星标数。repo_forks: int64类型,仓库分叉数。repo_commits: int64类型,仓库提交数。repo_created_at: timestamp[s]类型,仓库创建时间。repo_updated_at: timestamp[s]类型,仓库更新时间。file_name: 字符串类型,文件名。file_path: 字符串类型,文件路径。file_contents: 字符串类型,文件内容。file_language: 字符串类型,文件语言。file_tokens: int64类型,文件令牌数。
配置详情
各配置详情如下表所示:
| 配置名称 | 样本数 | 数据集大小(字节) | 下载大小(字节) |
|---|---|---|---|
| blade | 1086 | 2311712 | 731840 |
| c | 744 | 2989675 | 1120108 |
| csharp | 1328 | 5030959 | 1680907 |
| cpp | 722 | 3414606 | 1215539 |
| css | 50 | 30291 | 23722 |
| clojure | 663 | 4194951 | 1509786 |
| common_lisp | 95 | 741822 | 216620 |
| dart | 981 | 4922218 | 1690140 |
| erlang | 201 | 738725 | 261729 |
| fortran | 716 | 2471366 | 816342 |
| go | 746 | 3661211 | 1411668 |
| html | 445 | 2311959 | 768894 |
| haskell | 320 | 1224594 | 475540 |
| java | 1075 | 4643665 | 1512098 |
| java_server_page | 1 | 1088 | 9182 |
| javascript | 1284 | 3929187 | 1672261 |
| julia | 185 | 680443 | 253691 |
| kotlin | 1398 | 5350979 | 1774611 |
| lua | 702 | 3495635 | 1305897 |
| markdown | 566 | 3097421 | 1636225 |
| mathematica | 6 | 16399 | 25200 |
| matlab | 225 | 706906 | 262522 |
| ocaml | 243 | 663830 | 278110 |
| objective_c | 5706 | 5930832 | 1914106 |
| objective_cpp | 信息不完整 | 923889 | 信息不完整 |
数据来源与内容
- 数据来源于GitHub仓库,包含仓库元数据(如名称、许可证、星标数等)和具体的代码文件内容。
- 每个配置聚焦于一种特定的编程语言或标记语言(如C、Java、JavaScript、Markdown等)。
- 文件内容(
file_contents)字段存储了实际的源代码或标记文本。
搜集汇总
数据集介绍
构建方式
在开源软件生态蓬勃发展的背景下,code_fresh_0825_1225数据集通过系统化采集GitHub平台上的公开代码仓库构建而成。其构建过程聚焦于多编程语言覆盖,依据仓库的语言标签筛选出包括Blade、C、C++、Java、Python等在内的数十种语言样本。每个样本均以文件为基本单元,不仅提取了源代码内容,还关联了仓库层面的元数据,如许可证、星标数、提交历史等,从而形成了一个兼具代码语义与项目上下文的复合型语料库。
特点
该数据集的核心特征在于其丰富的多语言结构与细粒度的元数据标注。它囊括了从主流到小众的多种编程语言,每种语言独立配置,便于针对性研究。每个数据条目均包含文件路径、令牌数量及完整的仓库信息,使得数据兼具代码片段的具体性与项目生态的宏观性。这种设计支持对代码风格、项目活跃度、许可证分布等多维度进行交叉分析,为软件工程与代码智能研究提供了高信息密度的基础资源。
使用方法
该数据集适用于代码生成、代码补全、程序分析及软件仓库挖掘等研究任务。使用者可通过Hugging Face数据集库加载,并依据config_name参数选择特定编程语言子集进行访问。数据以标准结构化格式呈现,可直接用于模型训练或统计分析。在具体应用中,可结合file_contents字段进行代码建模,或利用repo_stars、repo_forks等元数据指标进行软件质量与流行度的关联研究,从而实现从代码语义到项目特征的全面探索。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,代码数据集对于推动程序理解、代码生成及软件智能化研究具有基石性作用。code_fresh_0825_1225数据集应运而生,其构建旨在汇集多编程语言的真实世界源代码文件,以支持大规模代码建模与分析任务。该数据集覆盖了从Blade、C、C++到JavaScript、Python等数十种编程语言,每个条目均包含仓库元数据与文件级内容,反映了开源生态的多样性与复杂性。通过整合代码内容、许可证信息及项目活跃度等多维度特征,该数据集为探索代码语义、跨语言迁移学习及软件质量评估提供了丰富的实验材料,有望深化对编程范式与开发实践的理解。
当前挑战
该数据集致力于解决代码智能领域中的多语言代码理解与生成挑战,其核心在于处理不同编程语言在语法、语义及惯用法上的巨大差异,这要求模型具备强大的跨语言泛化能力。在构建过程中,挑战主要源于数据采集与清洗的复杂性:需要从海量开源仓库中精确提取有效代码文件,同时确保许可证合规性并过滤低质量或敏感内容。此外,数据集中各语言样本量分布不均,如某些语言样本稀缺,可能影响模型训练的平衡性与代表性,如何构建高质量、多样化的多语言代码语料库仍是亟待突破的难点。
常用场景
经典使用场景
在代码智能研究领域,多语言代码数据集为模型训练提供了丰富的语料基础。code_fresh_0825_1225数据集以其涵盖Blade、C、C++、Java、JavaScript等数十种编程语言的特性,成为代码生成、代码补全和代码翻译任务的经典训练资源。研究者利用其结构化的仓库元数据与文件内容,能够构建跨语言的语义理解模型,探索不同编程范式下的代码表示学习。
解决学术问题
该数据集有效缓解了代码智能研究中多语言数据稀缺的困境。通过提供标准化、带注释的代码片段及仓库级上下文信息,它支持了代码克隆检测、程序合成质量评估、以及软件工程中代码异味识别等关键问题的实证研究。其丰富的语言多样性促进了跨语言迁移学习范式的创新,为构建通用代码理解模型奠定了数据基石。
衍生相关工作
围绕该数据集衍生的经典工作包括多模态代码表示学习框架,如将代码文本与抽象语法树融合的编码器模型。同时,基于其跨语言特性,研究者提出了统一的代码预训练架构,显著提升了代码摘要、缺陷预测等下游任务的性能。这些工作推动了代码智能社区向支持更广泛编程生态的方向演进。
以上内容由遇见数据集搜集并总结生成



