bleugreen/typescript-chunks
收藏Hugging Face2023-05-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bleugreen/typescript-chunks
下载链接
链接失效反馈官方服务:
资源简介:
typescript-chunks数据集是从the-stack-smol的TypeScript子集中处理的TypeScript代码片段集合。处理过程包括使用TypeScript AST解析源文件,查询特定类型的语义块,添加前导注释,移除超过最大序列长度的块,去重和清理,以及使用gpt-3.5-turbo生成指令/摘要。数据集结构包括类型、内容、仓库、路径和语言等特征,共有89115行数据。
提供机构:
bleugreen
原始信息汇总
数据集概述
数据集名称
- typescript-chunks
数据集来源
- 来自the-stack-smol的TypeScript子集。
数据集任务类别
- 文本分类
- 文本到文本生成
- 摘要生成
语言
- 英语
数据处理
- 使用TypeScript抽象语法树(AST)解析每个源文件,提取以下类型的“语义块”:
- FunctionDeclaration: 8205
- ArrowFunction: 33890
- ClassDeclaration: 5325
- InterfaceDeclaration: 12884
- EnumDeclaration: 518
- TypeAliasDeclaration: 3580
- MethodDeclaration: 24713
- 在
content前添加引导注释 - 移除超过最大序列长度(2048)的块
- 去重/清理
- 使用
gpt-3.5-turbo生成指令/摘要(进行中)
数据集结构
- 包含训练集,具有以下特征:
- type
- content
- repo
- path
- language
- 训练集行数:89115



