java-codesearch-filtered

Hugging Face2025-04-21 更新2025-04-22 收录

下载链接：

https://huggingface.co/datasets/Shuu12121/java-codesearch-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过过滤的Java代码搜索网络数据集，它包含了从公共GitHub仓库中提取的Java函数及其文档注释。每个函数都附带元数据，如仓库名称、文件路径、原始许可证和GitHub URL。数据集仅包含遵守MIT、Apache License 2.0、BSD 2-Clause、BSD 3-Clause或ISC许可证的代码。这些许可证允许重用和再分配（包括商业用途），前提是保留适当的归属和许可证条款。

创建时间：

2025-04-18

原始信息汇总

Java CodeSearchNet–Filtered 数据集概述

📌 基本信息

许可证: Apache-2.0
语言: Java代码
标签: code, java, codesearchnet-format

📊 数据集结构

特征字段

code: 代码内容 (string)
docstring: 文档注释 (string)
func_name: 函数名 (string)
language: 编程语言 (string)
repo: 仓库名 (string)
path: 文件路径 (string)
url: GitHub URL (string)
license: 许可证类型 (string)

数据划分

划分类型	样本数量	数据大小 (bytes)
train	593,184	1,575,603,430.53
validation	95,973	121,851,835.10
test	45,752	45,685,755.84
总计	734,909	1,743,141,021.47

📝 数据集描述

包含从公共GitHub仓库提取的Java函数及其文档注释（docstring）。
已过滤掉CodeSearchNet测试集中出现的仓库文件，并对相同文档注释或代码进行去重。
仅包含以下OSI批准的宽松许可证代码：
- MIT
- Apache License 2.0
- BSD 2-Clause
- BSD 3-Clause
- ISC

⚖️ 法律声明

所有代码片段均来自明确声明许可证的公共GitHub仓库。
每个样本保留其许可证类型（license字段）。
包含仓库名称和GitHub URL以便正确归属。
未包含无许可证或使用GPL类许可证的仓库代码。

免责声明: 用户需自行验证许可证条款并确保在下游应用中正确归属。

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码搜索与理解是提高开发效率的关键技术。Java CodeSearchNet–Filtered数据集通过系统化流程构建，从公开的GitHub仓库中提取Java函数及其文档注释。构建过程中严格筛选采用OSI批准的开源许可证（如MIT、Apache-2.0等）的代码，并移除了与CodeSearchNet测试集重复的仓库内容。通过基于文档字符串和代码内容的去重处理，确保了样本的唯一性。每个样本均保留了函数代码、文档注释及完整的元数据信息，包括仓库名称、文件路径等。

特点

该数据集作为代码语义理解研究的重要资源，具有鲜明的专业特征。其核心优势在于精心筛选的593,184个训练样本，覆盖了多样化的Java编程实践。每个样本包含函数实现、文档注释及丰富的上下文信息，为代码搜索和文档生成任务提供了多维度的研究素材。特别值得注意的是，所有样本均来自明确声明许可的开源项目，并保留了完整的溯源信息，既保障了法律合规性，又为研究可复现性提供了基础。数据集按照标准划分为训练集、验证集和测试集，支持机器学习模型的开发与评估。

使用方法

针对代码智能研究需求，该数据集提供了标准化的使用路径。研究者可直接加载预划分的训练、验证和测试集，用于训练代码搜索或文档生成模型。数据中的code字段提供函数实现，docstring字段对应自然语言描述，二者可构成典型的序列到序列学习任务。元数据信息如repo和path字段支持细粒度的代码溯源分析。使用时应特别注意遵守原始许可证要求，通过url字段进行合理署名。数据集采用CodeSearchNet标准格式，与同类研究保持兼容，便于模型比较和结果复现。

背景与挑战

背景概述

Java CodeSearchNet–Filtered数据集是专为代码搜索与理解任务设计的精选语料库，由开源社区基于CodeSearchNet框架构建。该数据集聚焦Java编程语言，从GitHub公共仓库中提取函数级代码片段及其对应文档注释，并附有丰富的元数据信息。其核心研究问题在于解决代码语义检索的准确性难题，通过构建大规模高质量代码-文档对，推动自然语言与编程语言之间的跨模态理解研究。数据集采用严格的许可过滤机制，仅包含MIT、Apache等五种OSI认可的开源许可代码，确保法律合规性。作为代码智能领域的重要基准，它为代码摘要生成、代码搜索等任务提供了关键数据支撑。

当前挑战

该数据集面临双重维度挑战：在领域问题层面，代码搜索任务需克服编程语言与自然语言间的语义鸿沟，函数级代码片段缺乏上下文信息加剧了理解难度，且文档注释质量参差不齐影响模型学习效果。在构建技术层面，严格的许可证合规要求大幅缩减可用数据规模，跨仓库代码去重消耗大量计算资源，而保持代码-文档对的精确对齐需要复杂的静态分析工具。测试集污染防范机制虽能避免数据泄露，但导致部分高质量样本被强制排除，这些因素共同制约着数据集的规模扩展与质量提升。

常用场景

经典使用场景

在软件工程和自然语言处理交叉领域，java-codesearch-filtered数据集为代码搜索与理解任务提供了标准化基准。该数据集通过精心筛选的Java函数及其对应文档字符串，构建了高质量的代码-文本对齐语料，特别适用于训练跨模态神经模型。研究者可以基于此开展代码摘要生成、语义检索等任务，其去重处理和严格的许可证筛选机制确保了数据的纯净度与合规性。

解决学术问题

该数据集有效解决了代码智能领域三大核心问题：跨模态表示学习的对齐难题、长尾代码语义理解的数据稀缺问题，以及开源代码法律合规性的评估困境。通过提供近60万条标准化的代码-文档对，研究者能够突破传统方法在代码语义表征上的局限性，为构建可解释的代码嵌入模型奠定数据基础。其测试集与训练集的严格隔离设计，更为模型泛化能力评估提供了可靠标准。

衍生相关工作

该数据集催生了CodeXGLUE基准测试中的代码搜索子任务，成为评估Transformer架构在代码理解领域性能的金标准。后续研究如UNIF与CodeBERT等突破性模型均以其作为核心训练数据，在代码摘要生成任务中达到SOTA性能。近期工作进一步扩展其应用边界，衍生出基于对比学习的代码克隆检测、跨语言代码迁移等创新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集