davidgaofc/techdebt_label
收藏Hugging Face2023-12-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davidgaofc/techdebt_label
下载链接
链接失效反馈官方服务:
资源简介:
该数据集techdebt_label是从The Technical Debt Dataset衍生而来,专门用于技术债务分析。数据集包含两个主要特征:Diff(差异)和Message(消息),均为字符串格式。数据集分为训练集和测试集,分别包含8793和2199个样本。数据集的标签通过SonarQube软件生成,并与代码提交中的差异和相关消息匹配。需要注意的是,该数据集存在样本量有限和标签多样性不足的问题,且数据提取的查询正在进一步验证中。
该数据集techdebt_label是从The Technical Debt Dataset衍生而来,专门用于技术债务分析。数据集包含两个主要特征:Diff(差异)和Message(消息),均为字符串格式。数据集分为训练集和测试集,分别包含8793和2199个样本。数据集的标签通过SonarQube软件生成,并与代码提交中的差异和相关消息匹配。需要注意的是,该数据集存在样本量有限和标签多样性不足的问题,且数据提取的查询正在进一步验证中。
提供机构:
davidgaofc
原始信息汇总
数据集详情
配置
- 默认配置 (
default)- 数据文件:
- 训练集 (
train): 路径data/train-* - 测试集 (
test): 路径data/test-*
- 训练集 (
- 数据文件:
数据集信息
- 特征:
Diff: 数据类型stringMessage: 数据类型string
- 数据分割:
- 训练集 (
train):- 字节数: 5042681
- 样本数: 8793
- 测试集 (
test):- 字节数: 1259287
- 样本数: 2199
- 训练集 (
- 下载大小: 1824024 字节
- 数据集大小: 6301968 字节
数据集细节和结构
- 标签由 SonarQube 软件提供,并与提交消息中的差异匹配。差异仅包含添加的代码行。
偏差、风险和限制
- 注意数据集样本量有限且标签种类有限。数据提取查询仍在检查中以确保正确性。
推荐
- 数据集正在不断改进中,请在使用时注意。



