code-search-net/code_search_net|代码检索数据集|自然语言处理数据集
收藏CodeSearchNet 数据集概述
数据集描述
基本信息
- 数据集名称: CodeSearchNet
- 数据类型: 代码和文档对
- 语言: 代码(多种编程语言)
- 许可证: 其他
- 多语言性: 多语言
- 数据规模: 10K<n<100K, 100K<n<1M, 1M<n<10M
- 源数据: 原始数据
- 任务类别: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
- PapersWithCode ID: codesearchnet
- 配置名称: all, go, java, javascript, php, python, ruby
数据实例
一个数据点包含函数代码及其文档,以及函数的元数据,如仓库名称等。
数据字段
id: 任意数字repository_name: GitHub仓库名称func_path_in_repository: 仓库中文件的路径func_name: 函数名称whole_func_string: 函数代码 + 文档language: 编程语言func_code_string: 函数代码func_code_tokens: 由Treesitter生成的代码标记func_documentation_string: 函数文档func_documentation_string_tokens: 由Treesitter生成的文档标记split_name: 数据分割名称(train, test, valid)func_code_url: GitHub上函数代码的URL
数据分割
- 训练集:
all: 1880853个样本, 5850604083字节java: 454451个样本, 1429272535字节go: 317832个样本, 738153234字节python: 412178个样本, 1559645310字节javascript: 123889个样本, 480286523字节ruby: 48791个样本, 110681715字节php: 523712个样本, 1532564870字节
- 测试集:
all: 100529个样本, 308626333字节java: 26909个样本, 82377246字节go: 14291个样本, 32286998字节python: 22176个样本, 84342064字节javascript: 6483个样本, 24056972字节ruby: 2279个样本, 5359280字节php: 28391个样本, 80203877字节
- 验证集:
all: 89154个样本, 274564382字节java: 15328个样本, 42358315字节go: 14242个样本, 26888527字节python: 23107个样本, 92154786字节javascript: 8253个样本, 30168242字节ruby: 2209个样本, 4830744字节php: 26015个样本, 78163924字节
数据集大小
- 下载大小: 5117370511字节
- 数据集大小: 6433794798字节
数据集创建
数据收集和规范化
数据集从公开可用的非fork GitHub仓库收集,使用libraries.io识别至少被一个其他项目使用的项目,并按星标和fork数量排序。移除没有明确允许重新分发许可证的项目。使用Treesitter对所有Go、Java、JavaScript、Python、PHP和Ruby函数及其文档进行标记化。
数据过滤
移除没有文档的函数,截断文档到第一个完整段落,移除短于三个标记的文档和短于三行的函数实现,移除名称包含“test”的函数,移除构造函数和标准扩展方法,移除重复和近似重复的函数。
源语言生产者
开源贡献者生成了代码和文档,数据集是自动收集和预处理的。

ERIC (Education Resources Information Center)
ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。
eric.ed.gov 收录
SVAMP
在解决基础应用数学问题时,模型往往主要依赖于浅层启发式方法,而非进行深度推理。因此,一个更具挑战性且经过可靠评估的SVAMP数据集被引入。该数据集改编自现有的数据集,用于评估模型在数学问题解决和推理能力方面的敏感性,其难度保持在相当于小学四年级的水平。
github 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。时间为北京时间。
国家海洋科学数据中心 收录
SeaDronesSee
SeaDronesSee是由德国图宾根大学认知系统组创建的大型视觉对象检测和跟踪基准,专注于海洋环境中的人类检测。该数据集包含超过54,000帧,总计400,000个实例,从不同高度和视角(5至260米,0至90度)捕获,并提供详细的元信息。数据集的创建旨在填补陆基视觉系统与海基系统之间的差距,特别适用于无人机辅助的海上搜救任务。SeaDronesSee通过提供精确的元数据,如高度、视角和速度,支持多模态系统的开发,以提高检测的准确性和速度。此外,数据集还包括多光谱图像,利用非可见光谱(如近红外和红边光谱)来增强人类检测能力。
arXiv 收录
