Fsoft-AIC/the-vault-inline
收藏Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Fsoft-AIC/the-vault-inline
下载链接
链接失效反馈官方服务:
资源简介:
The Vault数据集是一个全面、大规模、多语言的并行数据集,包含来自10种流行编程语言(如Java、JavaScript、Python、Ruby、Rust、Golang、C#、C++、C和PHP)的高质量代码-文本对。该数据集提供了多个代码片段级别、元数据和11种文档字符串风格,以增强可用性和多功能性。
The Vault数据集是一个全面、大规模、多语言的并行数据集,包含来自10种流行编程语言(如Java、JavaScript、Python、Ruby、Rust、Golang、C#、C++、C和PHP)的高质量代码-文本对。该数据集提供了多个代码片段级别、元数据和11种文档字符串风格,以增强可用性和多功能性。
提供机构:
Fsoft-AIC
原始信息汇总
数据集概述
数据集名称
- 名称: The Vault Function
- 别名: The Vault
数据集描述
- 目的: 用于推进代码理解和生成
- 特点: 包含10种流行编程语言的代码片段,提供多种代码片段级别、元数据和11种文档字符串风格
数据集内容
- 编程语言: Python, Java, JavaScript, PHP, C, C#, C++, Go, Ruby, Rust
- 自然语言: 英语
数据集结构
- 数据实例: 包含代码片段及其相关元数据
- 数据字段:
- hexsha: 文件的唯一git哈希
- repo: 仓库所有者/名称
- path: 原始文件的完整路径
- license: 仓库的许可证列表
- language: 编程语言
- identifier: 函数或方法名
- code: 原始代码部分
- code_tokens: 代码的标记化版本
- original_comment: 原始注释文本
- comment: 清理后的注释文本
- comment_tokens: 注释的标记化版本
- start_point: 注释在代码中的起始位置
- end_point: 注释在代码中的结束位置
- prev_context: 注释前的代码块
- next_context: 注释后的代码块
数据集统计
- 总计: 69,005,336个内联评论
数据集使用
- 加载方式: 使用
datasets库加载 - 示例代码: python from datasets import load_dataset dataset = load_dataset("Fsoft-AIC/the-vault-inline")
许可证信息
- 许可证: MIT License
引用信息
@article{manh2023vault, title={The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation}, author={Manh, Dung Nguyen and Hai, Nam Le and Dau, Anh TV and Nguyen, Anh Minh and Nghiem, Khanh and Guo, Jin and Bui, Nghi DQ}, journal={arXiv preprint arXiv:2305.06156}, year={2023} }
贡献者
- 开发团队: FSOFT AI4Code team



