rust-codesearch-filtered

Hugging Face2025-04-21 更新2025-04-22 收录

下载链接：

https://huggingface.co/datasets/Shuu12121/rust-codesearch-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从公共GitHub仓库中提取的Rust编程语言函数及其文档注释。每个函数都附带元数据，如仓库名称、文件路径、原始许可和GitHub URL。数据集仅包含遵守MIT、Apache-2.0、BSD 2-Clause、BSD 3-Clause或ISC许可的代码。这些许可允许在提供适当归属和保留许可条款的情况下进行重用和重新分配。

创建时间：

2025-04-18

原始信息汇总

Rust CodeSearchNet–Filtered 数据集概述

数据集基本信息

许可证: Apache-2.0
语言: Rust代码
标签: code, rust, codesearchnet-format

数据集特征

code: 字符串类型，表示代码片段
docstring: 字符串类型，表示文档注释
func_name: 字符串类型，表示函数名称
language: 字符串类型，表示编程语言
repo: 字符串类型，表示仓库名称
path: 字符串类型，表示文件路径
url: 字符串类型，表示GitHub URL
license: 字符串类型，表示许可证类型

数据集统计信息

训练集 (train): 211,912个样本，202,111,329字节
验证集 (validation): 26,172个样本，26,065,256字节
测试集 (test): 19,294个样本，20,785,753字节
总样本数: 257,378个样本
下载大小: 84,493,595字节
数据集大小: 248,962,339字节

数据集描述

该数据集包含从公共GitHub仓库提取的Rust函数及其文档注释（docstring）。
每个函数都配有元数据，如仓库名称、文件路径、原始许可证和GitHub URL。
数据集经过过滤，移除了出现在CodeSearchNet测试集中的仓库文件，并对相同的docstring或代码进行了去重。

许可证信息

仅包含以下OSI批准的许可证的代码：
- MIT
- Apache License 2.0
- BSD 2-Clause
- BSD 3-Clause
- ISC
每个样本保留其许可证类型在license字段中。
包含仓库名称和GitHub URL以便正确归属。
许可证文本可在LICENSES/目录中找到。
未包含缺少许可证或使用GPL风格许可证的仓库代码。

搜集汇总

数据集介绍

构建方式

在开源代码分析领域，rust-codesearch-filtered数据集通过系统化采集GitHub公开仓库中的Rust函数构建而成。构建过程严格筛选采用MIT、Apache-2.0等五种OSI认证许可的代码，并剔除了与CodeSearchNet测试集重复的仓库内容。通过基于文档字符串和代码内容的去重处理，最终形成包含函数实现、文档注释及元数据的结构化数据。

特点

该数据集以Rust语言函数为核心单元，每个样本包含代码片段、文档字符串及丰富的元数据字段，如函数名、仓库路径和许可类型。其突出特点在于严格的许可合规性控制，所有样本均来自明确声明使用五种宽松许可的仓库，并保留了完整的溯源信息。数据经过专业去重处理，确保训练集与测试集之间不存在项目重叠，为代码搜索任务提供了高质量的基准数据。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集的标准分割版本，包含训练集、验证集和测试集。典型应用场景包括代码文档生成、跨语言代码搜索等任务，使用时需注意遵守样本附带的原始许可要求。数据集的元数据字段支持多维度的代码分析，例如通过仓库路径追踪代码来源，或根据许可类型筛选适用场景。每个样本的URL字段为溯源提供了便利，符合开源许可的署名要求。

背景与挑战

背景概述

Rust CodeSearchNet–Filtered数据集是针对Rust编程语言设计的代码搜索与理解专用数据集，由研究团队基于GitHub公开代码库构建而成。该数据集聚焦于解决代码语义搜索和文档生成等核心问题，通过提取Rust函数及其对应的文档注释（docstring），为代码语义理解研究提供了结构化数据支持。数据集严格筛选了采用MIT、Apache-2.0等五种开源许可的代码，确保法律合规性，其构建范式延续了CodeSearchNet项目的标准格式，为编程语言处理领域提供了重要的基准资源。

当前挑战

该数据集面临双重挑战：在领域问题层面，Rust语言的独特所有权机制和复杂类型系统对代码语义表征提出了更高要求，现有模型难以准确捕捉其语法语义特征；在构建过程中，需解决代码去重、测试集污染规避等工程难题，同时严格遵循开源许可条款进行数据筛选与溯源，这对数据清洗流程的精确性提出了严峻考验。此外，保持文档注释与代码实现的一致性验证也是构建高质量数据集的潜在挑战。

常用场景

经典使用场景

在软件工程与程序语言研究领域，rust-codesearch-filtered数据集为Rust代码搜索与理解任务提供了标准化的基准测试平台。该数据集通过精心筛选的Rust函数及其文档字符串，支持代码语义检索、跨语言代码迁移等核心研究，其结构化元数据使得函数级代码分析成为可能，特别适合评估神经代码搜索模型的精确度与泛化能力。

实际应用

在工业界实践中，该数据集支撑着智能IDE插件的开发，通过海量优质Rust代码样本训练出的模型能够实现精准的代码补全与文档提示。安全分析团队利用其构建恶意代码检测系统，基于许可证合规的代码特征可有效识别异常模式。开源平台则借助此类数据优化代码推荐算法，提升开发者协作效率。

衍生相关工作

基于该数据集衍生的经典研究包括CodeBERT-Rust变体模型，其在跨模态代码搜索任务中刷新了性能基准。后续工作如Doc2Rust探索了文档生成与代码的双向映射关系，而LicenseComplianceClassifier则开创了基于深度学习的开源许可证合规性检测新范式，这些成果均被收录于顶会论文并形成工具链生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集