bleugreen/typescript-instruct
收藏Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bleugreen/typescript-instruct
下载链接
链接失效反馈官方服务:
资源简介:
typescript-instruct数据集包含从[the-stack-smol](https://huggingface.co/datasets/bigcode/the-stack-smol)的TypeScript子集中处理的TypeScript代码片段。每个源文件都通过TypeScript AST解析,并查询以下类型的语义块:ClassDeclaration、ArrowFunction、MethodDeclaration、FunctionDeclaration、TypeAliasDeclaration、InterfaceDeclaration和EnumDeclaration。处理过程中,前导注释被添加到内容的前面,去除了所有超过最大序列长度(2048)的块,并进行了去重和清理。指令使用`gpt-3.5-turbo`生成。数据集结构包括类型、内容、仓库、路径、语言和指令等特征,共有41109行数据。
typescript-instruct数据集包含从[the-stack-smol](https://huggingface.co/datasets/bigcode/the-stack-smol)的TypeScript子集中处理的TypeScript代码片段。每个源文件都通过TypeScript AST解析,并查询以下类型的语义块:ClassDeclaration、ArrowFunction、MethodDeclaration、FunctionDeclaration、TypeAliasDeclaration、InterfaceDeclaration和EnumDeclaration。处理过程中,前导注释被添加到内容的前面,去除了所有超过最大序列长度(2048)的块,并进行了去重和清理。指令使用`gpt-3.5-turbo`生成。数据集结构包括类型、内容、仓库、路径、语言和指令等特征,共有41109行数据。
提供机构:
bleugreen
原始信息汇总
数据集概述
基本信息
- 数据集名称: typescript-instruct
- 来源: 处理自 the-stack-smol 的 TypeScript 子集
- 语言: 英语 (en)
- 标签: typescript, instruct, code
- 大小: 10K<n<100K
任务类别
- 文本分类
- 文本到文本生成
- 摘要生成
数据处理
- 使用 TypeScript AST 解析每个源文件,提取以下类型的 semantic chunks:
- ClassDeclaration: 2401
- ArrowFunction: 16443
- MethodDeclaration: 12096
- FunctionDeclaration: 3226
- TypeAliasDeclaration: 1489
- InterfaceDeclaration: 5240
- EnumDeclaration: 214
- 在
content前添加引导评论 - 移除超过最大序列长度(2048)的块
- 去重/清理
- 使用
gpt-3.5-turbo生成指令
数据集结构
- 结构: DatasetDict
- 训练集: 41109 行
- 特征: type, content, repo, path, language, instruction



