five

Fsoft-AIC/the-vault-inline

收藏
Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Fsoft-AIC/the-vault-inline
下载链接
链接失效反馈
官方服务:
资源简介:
The Vault数据集是一个全面、大规模、多语言的并行数据集,包含来自10种流行编程语言(如Java、JavaScript、Python、Ruby、Rust、Golang、C#、C++、C和PHP)的高质量代码-文本对。该数据集提供了多个代码片段级别、元数据和11种文档字符串风格,以增强可用性和多功能性。

The Vault数据集是一个全面、大规模、多语言的并行数据集,包含来自10种流行编程语言(如Java、JavaScript、Python、Ruby、Rust、Golang、C#、C++、C和PHP)的高质量代码-文本对。该数据集提供了多个代码片段级别、元数据和11种文档字符串风格,以增强可用性和多功能性。
提供机构:
Fsoft-AIC
原始信息汇总

数据集概述

数据集名称

  • 名称: The Vault Function
  • 别名: The Vault

数据集描述

  • 目的: 用于推进代码理解和生成
  • 特点: 包含10种流行编程语言的代码片段,提供多种代码片段级别、元数据和11种文档字符串风格

数据集内容

  • 编程语言: Python, Java, JavaScript, PHP, C, C#, C++, Go, Ruby, Rust
  • 自然语言: 英语

数据集结构

  • 数据实例: 包含代码片段及其相关元数据
  • 数据字段:
    • hexsha: 文件的唯一git哈希
    • repo: 仓库所有者/名称
    • path: 原始文件的完整路径
    • license: 仓库的许可证列表
    • language: 编程语言
    • identifier: 函数或方法名
    • code: 原始代码部分
    • code_tokens: 代码的标记化版本
    • original_comment: 原始注释文本
    • comment: 清理后的注释文本
    • comment_tokens: 注释的标记化版本
    • start_point: 注释在代码中的起始位置
    • end_point: 注释在代码中的结束位置
    • prev_context: 注释前的代码块
    • next_context: 注释后的代码块

数据集统计

  • 总计: 69,005,336个内联评论

数据集使用

  • 加载方式: 使用datasets库加载
  • 示例代码: python from datasets import load_dataset dataset = load_dataset("Fsoft-AIC/the-vault-inline")

许可证信息

  • 许可证: MIT License

引用信息

@article{manh2023vault, title={The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation}, author={Manh, Dung Nguyen and Hai, Nam Le and Dau, Anh TV and Nguyen, Anh Minh and Nghiem, Khanh and Guo, Jin and Bui, Nghi DQ}, journal={arXiv preprint arXiv:2305.06156}, year={2023} }

贡献者

  • 开发团队: FSOFT AI4Code team
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作