AISE-TUDelft/nlbse_ccc
收藏Hugging Face2023-08-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AISE-TUDelft/nlbse_ccc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为NLBSE23代码注释分类竞赛创建的数据集对象,包含Java、Python和Pharo三种编程语言的代码注释。数据集分为多个类别,如Expand、Ownership、Deprecation等,每个类别都有正负样本的分布情况。数据集的特征包括comment_sentence_id、class、comment_sentence等。数据集的创建过程通过代码片段展示,使用了GitHub仓库中的数据。
提供机构:
AISE-TUDelft
原始信息汇总
数据集概述
数据集配置
- 默认配置:包含多个数据文件,每个文件对应不同的编程语言和分类。
数据文件列表
- Java:
java_Pointerjava_Expandjava_Ownershipjava_deprecationjava_rationaljava_summaryjava_usage
- Python:
python_Expandpython_Summarypython_DevelopmentNotespython_Parameterspython_Usage
- Pharo:
pharo_Examplepharo_Keymessagespharo_Responsibilitiespharo_Keyimplementationpointspharo_Collaboratorspharo_Intentpharo_Classreferences
数据集信息
特征
comment_sentence_id:评论句子的ID,数据类型为int64class:类别,数据类型为stringcomment_sentence:评论句子,数据类型为stringpartition:分区,数据类型为int64instance_type:实例类型,数据类型为int64category:分类,数据类型为stringlabel:标签,数据类型为int64combo:组合,数据类型为string__index_level_0__:索引级别,数据类型为int64
数据分割
- Java:
java_Pointer:483600字节,2418个样本java_Expand:481182字节,2418个样本java_Ownership:488436字节,2418个样本java_deprecation:493272字节,2418个样本java_rational:486018字节,2418个样本java_summary:483600字节,2418个样本java_usage:478764字节,2418个样本
- Python:
python_Expand:421025字节,2555个样本python_Summary:423580字节,2555个样本python_DevelopmentNotes:446575字节,2555个样本python_Parameters:431245字节,2555个样本python_Usage:418470字节,2555个样本
- Pharo:
pharo_Example:368156字节,1765个样本pharo_Keymessages:375216字节,1765个样本pharo_Responsibilities:384041字节,1765个样本pharo_Keyimplementationpoints:396396字节,1765个样本pharo_Collaborators:378746字节,1765个样本pharo_Intent:366391字节,1765个样本pharo_Classreferences:382276字节,1765个样本
数据集大小
- 下载大小:3231436字节
- 数据集大小:8186989字节
任务类别
- 文本分类
数据集规模
- 10K<n<100K



