five

bleugreen/typescript-instruct

收藏
Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bleugreen/typescript-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
typescript-instruct数据集包含从[the-stack-smol](https://huggingface.co/datasets/bigcode/the-stack-smol)的TypeScript子集中处理的TypeScript代码片段。每个源文件都通过TypeScript AST解析,并查询以下类型的语义块:ClassDeclaration、ArrowFunction、MethodDeclaration、FunctionDeclaration、TypeAliasDeclaration、InterfaceDeclaration和EnumDeclaration。处理过程中,前导注释被添加到内容的前面,去除了所有超过最大序列长度(2048)的块,并进行了去重和清理。指令使用`gpt-3.5-turbo`生成。数据集结构包括类型、内容、仓库、路径、语言和指令等特征,共有41109行数据。

typescript-instruct数据集包含从[the-stack-smol](https://huggingface.co/datasets/bigcode/the-stack-smol)的TypeScript子集中处理的TypeScript代码片段。每个源文件都通过TypeScript AST解析,并查询以下类型的语义块:ClassDeclaration、ArrowFunction、MethodDeclaration、FunctionDeclaration、TypeAliasDeclaration、InterfaceDeclaration和EnumDeclaration。处理过程中,前导注释被添加到内容的前面,去除了所有超过最大序列长度(2048)的块,并进行了去重和清理。指令使用`gpt-3.5-turbo`生成。数据集结构包括类型、内容、仓库、路径、语言和指令等特征,共有41109行数据。
提供机构:
bleugreen
原始信息汇总

数据集概述

基本信息

  • 数据集名称: typescript-instruct
  • 来源: 处理自 the-stack-smol 的 TypeScript 子集
  • 语言: 英语 (en)
  • 标签: typescript, instruct, code
  • 大小: 10K<n<100K

任务类别

  • 文本分类
  • 文本到文本生成
  • 摘要生成

数据处理

  • 使用 TypeScript AST 解析每个源文件,提取以下类型的 semantic chunks:
    • ClassDeclaration: 2401
    • ArrowFunction: 16443
    • MethodDeclaration: 12096
    • FunctionDeclaration: 3226
    • TypeAliasDeclaration: 1489
    • InterfaceDeclaration: 5240
    • EnumDeclaration: 214
  • content 前添加引导评论
  • 移除超过最大序列长度(2048)的块
  • 去重/清理
  • 使用 gpt-3.5-turbo 生成指令

数据集结构

  • 结构: DatasetDict
  • 训练集: 41109 行
  • 特征: type, content, repo, path, language, instruction
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作