euclaise/thevault-filtered
收藏Hugging Face2023-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euclaise/thevault-filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是The Vault (function)的过滤版本,仅包含Python代码。通过轻量级AST过滤自包含函数,并使用CodeBERT嵌入进行聚类,最终手动筛选出1024个聚类中的信息丰富函数。排除了多个聚类,原因包括空函数、固定API内容、类方法等。数据集包含多个特征,如代码、文档字符串、参数等,适用于文本生成任务。
该数据集是The Vault (function)的过滤版本,仅包含Python代码。通过轻量级AST过滤自包含函数,并使用CodeBERT嵌入进行聚类,最终手动筛选出1024个聚类中的信息丰富函数。排除了多个聚类,原因包括空函数、固定API内容、类方法等。数据集包含多个特征,如代码、文档字符串、参数等,适用于文本生成任务。
提供机构:
euclaise
原始信息汇总
数据集信息
特征
- hexsha: 字符串类型
- repo: 字符串类型
- path: 字符串类型
- license: 字符串序列类型
- language: 字符串类型
- identifier: 字符串类型
- return_type: 字符串类型
- original_string: 字符串类型
- original_docstring: 字符串类型
- docstring: 字符串类型
- docstring_tokens: 字符串序列类型
- code: 字符串类型
- code_tokens: 字符串序列类型
- short_docstring: 字符串类型
- short_docstring_tokens: 字符串序列类型
- comment: 字符串序列类型
- parameters: 列表类型,包含以下字段:
- param: 字符串类型
- type: 字符串类型
- docstring_params: 结构类型,包含以下字段:
- returns: 列表类型,包含以下字段:
- docstring: 字符串类型
- docstring_tokens: 字符串序列类型
- type: 字符串类型
- raises: 列表类型,包含以下字段:
- docstring: 字符串类型
- docstring_tokens: 字符串序列类型
- type: 字符串类型
- params: 列表类型,包含以下字段:
- identifier: 字符串类型
- type: 字符串类型
- docstring: 字符串类型
- docstring_tokens: 字符串序列类型
- default: 字符串类型
- is_optional: 布尔类型
- outlier_params: 列表类型,包含以下字段:
- identifier: 字符串类型
- type: 字符串类型
- docstring: 字符串类型
- docstring_tokens: 字符串序列类型
- default: 字符串类型
- is_optional: 布尔类型
- others: 列表类型,包含以下字段:
- identifier: 字符串类型
- docstring: 字符串类型
- docstring_tokens: 字符串序列类型
- returns: 列表类型,包含以下字段:
- code_with_imports: 字符串类型
- idxs: 64位整数类型
- cluster: 64位整数类型
数据分割
- train:
- 字节数: 1555988881.6663418
- 样本数: 544627
数据集大小
- 下载大小: 773215769
- 数据集大小: 1555988881.6663418
许可证
- MIT
任务类别
- 文本生成



