five

euclaise/thevault-filtered

收藏
Hugging Face2023-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euclaise/thevault-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是The Vault (function)的过滤版本,仅包含Python代码。通过轻量级AST过滤自包含函数,并使用CodeBERT嵌入进行聚类,最终手动筛选出1024个聚类中的信息丰富函数。排除了多个聚类,原因包括空函数、固定API内容、类方法等。数据集包含多个特征,如代码、文档字符串、参数等,适用于文本生成任务。

该数据集是The Vault (function)的过滤版本,仅包含Python代码。通过轻量级AST过滤自包含函数,并使用CodeBERT嵌入进行聚类,最终手动筛选出1024个聚类中的信息丰富函数。排除了多个聚类,原因包括空函数、固定API内容、类方法等。数据集包含多个特征,如代码、文档字符串、参数等,适用于文本生成任务。
提供机构:
euclaise
原始信息汇总

数据集信息

特征

  • hexsha: 字符串类型
  • repo: 字符串类型
  • path: 字符串类型
  • license: 字符串序列类型
  • language: 字符串类型
  • identifier: 字符串类型
  • return_type: 字符串类型
  • original_string: 字符串类型
  • original_docstring: 字符串类型
  • docstring: 字符串类型
  • docstring_tokens: 字符串序列类型
  • code: 字符串类型
  • code_tokens: 字符串序列类型
  • short_docstring: 字符串类型
  • short_docstring_tokens: 字符串序列类型
  • comment: 字符串序列类型
  • parameters: 列表类型,包含以下字段:
    • param: 字符串类型
    • type: 字符串类型
  • docstring_params: 结构类型,包含以下字段:
    • returns: 列表类型,包含以下字段:
      • docstring: 字符串类型
      • docstring_tokens: 字符串序列类型
      • type: 字符串类型
    • raises: 列表类型,包含以下字段:
      • docstring: 字符串类型
      • docstring_tokens: 字符串序列类型
      • type: 字符串类型
    • params: 列表类型,包含以下字段:
      • identifier: 字符串类型
      • type: 字符串类型
      • docstring: 字符串类型
      • docstring_tokens: 字符串序列类型
      • default: 字符串类型
      • is_optional: 布尔类型
    • outlier_params: 列表类型,包含以下字段:
      • identifier: 字符串类型
      • type: 字符串类型
      • docstring: 字符串类型
      • docstring_tokens: 字符串序列类型
      • default: 字符串类型
      • is_optional: 布尔类型
    • others: 列表类型,包含以下字段:
      • identifier: 字符串类型
      • docstring: 字符串类型
      • docstring_tokens: 字符串序列类型
  • code_with_imports: 字符串类型
  • idxs: 64位整数类型
  • cluster: 64位整数类型

数据分割

  • train:
    • 字节数: 1555988881.6663418
    • 样本数: 544627

数据集大小

  • 下载大小: 773215769
  • 数据集大小: 1555988881.6663418

许可证

  • MIT

任务类别

  • 文本生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作