walledai/CSEAutocomplete
收藏Hugging Face2024-06-18 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/walledai/CSEAutocomplete
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种编程语言的代码片段,每个片段详细记录了提示信息、代码仓库、文件路径、行号、行文本、原始代码、CWE标识符、模式ID、模式描述、规则、变体和分析器等特征。数据集被细分为多个子集,每个子集对应一种特定的编程语言,如C、Rust、JavaScript等,每个子集包含特定数量的字节和示例。该数据集主要用于文本生成任务。
该数据集包含多种编程语言的代码片段,每个片段详细记录了提示信息、代码仓库、文件路径、行号、行文本、原始代码、CWE标识符、模式ID、模式描述、规则、变体和分析器等特征。数据集被细分为多个子集,每个子集对应一种特定的编程语言,如C、Rust、JavaScript等,每个子集包含特定数量的字节和示例。该数据集主要用于文本生成任务。
提供机构:
walledai
原始信息汇总
数据集概述
数据集特征
- prompt: 字符串类型
- repo: 字符串类型
- file_path: 字符串类型
- line_number: 整数类型
- line_text: 字符串类型
- origin_code: 字符串类型
- cwe_identifier: 字符串类型
- pattern_id: 字符串类型
- pattern_desc: 字符串类型
- rule: 字符串类型
- variant: 字符串类型
- analyzer: 字符串类型
数据集分割
- c:
- 字节数: 338207.1341336117
- 样本数: 227
- rust:
- 字节数: 303939.4509394572
- 样本数: 204
- javascript:
- 字节数: 370984.9180584551
- 样本数: 249
- cpp:
- 字节数: 385883.91075156577
- 样本数: 259
- python:
- 字节数: 522954.6435281837
- 样本数: 351
- java:
- 字节数: 341186.93267223384
- 样本数: 229
- csharp:
- 字节数: 350126.3282881002
- 样本数: 235
- php:
- 字节数: 241363.68162839249
- 样本数: 162
数据集大小
- 下载大小: 1238160 字节
- 数据集大小: 2854647 字节
配置
- 配置名称: default
- 数据文件路径:
- c: data/c-*
- rust: data/rust-*
- javascript: data/javascript-*
- cpp: data/cpp-*
- python: data/python-*
- java: data/java-*
- csharp: data/csharp-*
- php: data/php-*
- 数据文件路径:
任务类别
- text-generation



