five

java-codesearch-filtered

收藏
Hugging Face2025-04-21 更新2025-04-22 收录
下载链接:
https://huggingface.co/datasets/Shuu12121/java-codesearch-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过过滤的Java代码搜索网络数据集,它包含了从公共GitHub仓库中提取的Java函数及其文档注释。每个函数都附带元数据,如仓库名称、文件路径、原始许可证和GitHub URL。数据集仅包含遵守MIT、Apache License 2.0、BSD 2-Clause、BSD 3-Clause或ISC许可证的代码。这些许可证允许重用和再分配(包括商业用途),前提是保留适当的归属和许可证条款。
创建时间:
2025-04-18
原始信息汇总

Java CodeSearchNet–Filtered 数据集概述

📌 基本信息

  • 许可证: Apache-2.0
  • 语言: Java代码
  • 标签: code, java, codesearchnet-format

📊 数据集结构

特征字段

  • code: 代码内容 (string)
  • docstring: 文档注释 (string)
  • func_name: 函数名 (string)
  • language: 编程语言 (string)
  • repo: 仓库名 (string)
  • path: 文件路径 (string)
  • url: GitHub URL (string)
  • license: 许可证类型 (string)

数据划分

划分类型 样本数量 数据大小 (bytes)
train 593,184 1,575,603,430.53
validation 95,973 121,851,835.10
test 45,752 45,685,755.84
总计 734,909 1,743,141,021.47

📝 数据集描述

  • 包含从公共GitHub仓库提取的Java函数及其文档注释(docstring)。
  • 已过滤掉CodeSearchNet测试集中出现的仓库文件,并对相同文档注释或代码进行去重。
  • 仅包含以下OSI批准的宽松许可证代码:
    • MIT
    • Apache License 2.0
    • BSD 2-Clause
    • BSD 3-Clause
    • ISC

⚖️ 法律声明

  • 所有代码片段均来自明确声明许可证的公共GitHub仓库。
  • 每个样本保留其许可证类型(license字段)。
  • 包含仓库名称和GitHub URL以便正确归属。
  • 未包含无许可证或使用GPL类许可证的仓库代码。

免责声明: 用户需自行验证许可证条款并确保在下游应用中正确归属。

搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,代码搜索与理解是提高开发效率的关键技术。Java CodeSearchNet–Filtered数据集通过系统化流程构建,从公开的GitHub仓库中提取Java函数及其文档注释。构建过程中严格筛选采用OSI批准的开源许可证(如MIT、Apache-2.0等)的代码,并移除了与CodeSearchNet测试集重复的仓库内容。通过基于文档字符串和代码内容的去重处理,确保了样本的唯一性。每个样本均保留了函数代码、文档注释及完整的元数据信息,包括仓库名称、文件路径等。
特点
该数据集作为代码语义理解研究的重要资源,具有鲜明的专业特征。其核心优势在于精心筛选的593,184个训练样本,覆盖了多样化的Java编程实践。每个样本包含函数实现、文档注释及丰富的上下文信息,为代码搜索和文档生成任务提供了多维度的研究素材。特别值得注意的是,所有样本均来自明确声明许可的开源项目,并保留了完整的溯源信息,既保障了法律合规性,又为研究可复现性提供了基础。数据集按照标准划分为训练集、验证集和测试集,支持机器学习模型的开发与评估。
使用方法
针对代码智能研究需求,该数据集提供了标准化的使用路径。研究者可直接加载预划分的训练、验证和测试集,用于训练代码搜索或文档生成模型。数据中的code字段提供函数实现,docstring字段对应自然语言描述,二者可构成典型的序列到序列学习任务。元数据信息如repo和path字段支持细粒度的代码溯源分析。使用时应特别注意遵守原始许可证要求,通过url字段进行合理署名。数据集采用CodeSearchNet标准格式,与同类研究保持兼容,便于模型比较和结果复现。
背景与挑战
背景概述
Java CodeSearchNet–Filtered数据集是专为代码搜索与理解任务设计的精选语料库,由开源社区基于CodeSearchNet框架构建。该数据集聚焦Java编程语言,从GitHub公共仓库中提取函数级代码片段及其对应文档注释,并附有丰富的元数据信息。其核心研究问题在于解决代码语义检索的准确性难题,通过构建大规模高质量代码-文档对,推动自然语言与编程语言之间的跨模态理解研究。数据集采用严格的许可过滤机制,仅包含MIT、Apache等五种OSI认可的开源许可代码,确保法律合规性。作为代码智能领域的重要基准,它为代码摘要生成、代码搜索等任务提供了关键数据支撑。
当前挑战
该数据集面临双重维度挑战:在领域问题层面,代码搜索任务需克服编程语言与自然语言间的语义鸿沟,函数级代码片段缺乏上下文信息加剧了理解难度,且文档注释质量参差不齐影响模型学习效果。在构建技术层面,严格的许可证合规要求大幅缩减可用数据规模,跨仓库代码去重消耗大量计算资源,而保持代码-文档对的精确对齐需要复杂的静态分析工具。测试集污染防范机制虽能避免数据泄露,但导致部分高质量样本被强制排除,这些因素共同制约着数据集的规模扩展与质量提升。
常用场景
经典使用场景
在软件工程和自然语言处理交叉领域,java-codesearch-filtered数据集为代码搜索与理解任务提供了标准化基准。该数据集通过精心筛选的Java函数及其对应文档字符串,构建了高质量的代码-文本对齐语料,特别适用于训练跨模态神经模型。研究者可以基于此开展代码摘要生成、语义检索等任务,其去重处理和严格的许可证筛选机制确保了数据的纯净度与合规性。
解决学术问题
该数据集有效解决了代码智能领域三大核心问题:跨模态表示学习的对齐难题、长尾代码语义理解的数据稀缺问题,以及开源代码法律合规性的评估困境。通过提供近60万条标准化的代码-文档对,研究者能够突破传统方法在代码语义表征上的局限性,为构建可解释的代码嵌入模型奠定数据基础。其测试集与训练集的严格隔离设计,更为模型泛化能力评估提供了可靠标准。
衍生相关工作
该数据集催生了CodeXGLUE基准测试中的代码搜索子任务,成为评估Transformer架构在代码理解领域性能的金标准。后续研究如UNIF与CodeBERT等突破性模型均以其作为核心训练数据,在代码摘要生成任务中达到SOTA性能。近期工作进一步扩展其应用边界,衍生出基于对比学习的代码克隆检测、跨语言代码迁移等创新研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作