AISE-TUDelft/Capybara
收藏Hugging Face2025-04-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AISE-TUDelft/Capybara
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练BinT5模型,具体信息可参考相关论文。数据集包含多个分割,如dedup_C、dup_C等,每个分割都有相应的字节数和示例数。数据集的特征包括id、docstring_tokens、code_tokens、fun_name、repo、starting、partition和__index_level_0__。数据集的总下载大小为592873091字节,总数据集大小为3075877744字节。
该数据集用于训练BinT5模型,具体信息可参考相关论文。数据集包含多个分割,如dedup_C、dup_C等,每个分割都有相应的字节数和示例数。数据集的特征包括id、docstring_tokens、code_tokens、fun_name、repo、starting、partition和__index_level_0__。数据集的总下载大小为592873091字节,总数据集大小为3075877744字节。
提供机构:
AISE-TUDelft
原始信息汇总
数据集概述
数据集配置
- 默认配置
- 数据文件路径
dedup_C:data/dedup_C-*dup_C:data/dup_C-*dedup_DecomC:data/dedup_DecomC-*dup_DecomC:data/dup_DecomC-*dedup_demiStripped:data/dedup_demiStripped-*dup_demiStripped:data/dup_demiStripped-*no_fun_demiStripped:data/no_fun_demiStripped-*dup_stripped:data/dup_stripped-*dedup_stripped:data/dedup_stripped-*
- 数据文件路径
数据集信息
-
特征
id: 类型int64docstring_tokens: 序列类型stringcode_tokens: 序列类型stringfun_name: 类型stringrepo: 类型stringstarting: 类型stringpartition: 类型string__index_level_0__: 类型int64
-
分割
dedup_C- 字节数: 167770495
- 样本数: 79673
dup_C- 字节数: 348707539
- 样本数: 214587
dedup_DecomC- 字节数: 330052224
- 样本数: 79673
dup_DecomC- 字节数: 614158883
- 样本数: 214587
dedup_demiStripped- 字节数: 316991021
- 样本数: 79673
dup_demiStripped- 字节数: 590234671
- 样本数: 214587
no_fun_demiStripped- 字节数: 606914210
- 样本数: 214587
dup_stripped- 字节数: 60563000
- 样本数: 14245
dedup_stripped- 字节数: 40485701
- 样本数: 7826
-
下载大小: 592873091 字节
-
数据集大小: 3075877744 字节
许可证
- 许可证: Apache-2.0
任务类别
- 任务类别: 摘要生成
标签
- 标签:
- code
- Reverse Engineering
- Binary
- Code Summarization
大小类别
- 大小类别: 100K < n < 1M



