five

bleugreen/typescript-chunks

收藏
Hugging Face2023-05-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bleugreen/typescript-chunks
下载链接
链接失效反馈
官方服务:
资源简介:
typescript-chunks数据集是从the-stack-smol的TypeScript子集中处理的TypeScript代码片段集合。处理过程包括使用TypeScript AST解析源文件,查询特定类型的语义块,添加前导注释,移除超过最大序列长度的块,去重和清理,以及使用gpt-3.5-turbo生成指令/摘要。数据集结构包括类型、内容、仓库、路径和语言等特征,共有89115行数据。
提供机构:
bleugreen
原始信息汇总

数据集概述

数据集名称

  • typescript-chunks

数据集来源

数据集任务类别

  • 文本分类
  • 文本到文本生成
  • 摘要生成

语言

  • 英语

数据处理

  • 使用TypeScript抽象语法树(AST)解析每个源文件,提取以下类型的“语义块”:
    • FunctionDeclaration: 8205
    • ArrowFunction: 33890
    • ClassDeclaration: 5325
    • InterfaceDeclaration: 12884
    • EnumDeclaration: 518
    • TypeAliasDeclaration: 3580
    • MethodDeclaration: 24713
  • content前添加引导注释
  • 移除超过最大序列长度(2048)的块
  • 去重/清理
  • 使用gpt-3.5-turbo生成指令/摘要(进行中)

数据集结构

  • 包含训练集,具有以下特征:
    • type
    • content
    • repo
    • path
    • language
  • 训练集行数:89115
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作