five

AISE-TUDelft/nlbse_ccc

收藏
Hugging Face2023-08-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AISE-TUDelft/nlbse_ccc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为NLBSE23代码注释分类竞赛创建的数据集对象,包含Java、Python和Pharo三种编程语言的代码注释。数据集分为多个类别,如Expand、Ownership、Deprecation等,每个类别都有正负样本的分布情况。数据集的特征包括comment_sentence_id、class、comment_sentence等。数据集的创建过程通过代码片段展示,使用了GitHub仓库中的数据。
提供机构:
AISE-TUDelft
原始信息汇总

数据集概述

数据集配置

  • 默认配置:包含多个数据文件,每个文件对应不同的编程语言和分类。

数据文件列表

  • Java
    • java_Pointer
    • java_Expand
    • java_Ownership
    • java_deprecation
    • java_rational
    • java_summary
    • java_usage
  • Python
    • python_Expand
    • python_Summary
    • python_DevelopmentNotes
    • python_Parameters
    • python_Usage
  • Pharo
    • pharo_Example
    • pharo_Keymessages
    • pharo_Responsibilities
    • pharo_Keyimplementationpoints
    • pharo_Collaborators
    • pharo_Intent
    • pharo_Classreferences

数据集信息

特征

  • comment_sentence_id:评论句子的ID,数据类型为int64
  • class:类别,数据类型为string
  • comment_sentence:评论句子,数据类型为string
  • partition:分区,数据类型为int64
  • instance_type:实例类型,数据类型为int64
  • category:分类,数据类型为string
  • label:标签,数据类型为int64
  • combo:组合,数据类型为string
  • __index_level_0__:索引级别,数据类型为int64

数据分割

  • Java
    • java_Pointer:483600字节,2418个样本
    • java_Expand:481182字节,2418个样本
    • java_Ownership:488436字节,2418个样本
    • java_deprecation:493272字节,2418个样本
    • java_rational:486018字节,2418个样本
    • java_summary:483600字节,2418个样本
    • java_usage:478764字节,2418个样本
  • Python
    • python_Expand:421025字节,2555个样本
    • python_Summary:423580字节,2555个样本
    • python_DevelopmentNotes:446575字节,2555个样本
    • python_Parameters:431245字节,2555个样本
    • python_Usage:418470字节,2555个样本
  • Pharo
    • pharo_Example:368156字节,1765个样本
    • pharo_Keymessages:375216字节,1765个样本
    • pharo_Responsibilities:384041字节,1765个样本
    • pharo_Keyimplementationpoints:396396字节,1765个样本
    • pharo_Collaborators:378746字节,1765个样本
    • pharo_Intent:366391字节,1765个样本
    • pharo_Classreferences:382276字节,1765个样本

数据集大小

  • 下载大小:3231436字节
  • 数据集大小:8186989字节

任务类别

  • 文本分类

数据集规模

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作