five

kevinjesse/ManyTypes4TypeScript

收藏
Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kevinjesse/ManyTypes4TypeScript
下载链接
链接失效反馈
官方服务:
资源简介:
ManyTypes4TypeScript是一个用于TypeScript代码类型推断的数据集,任务被定义为多类分类问题。给定一行源代码,任务是识别与代码标记对应的类型。数据集包含TypeScript代码的标记序列和对应的类型标签,数据字段包括tokens、labels、url、path、commit_hash和file。数据集的结构包括训练集、验证集和测试集的分割比例。

ManyTypes4TypeScript is a dataset dedicated to TypeScript code type inference. The task is formulated as a multi-class classification problem: given a line of source code, the goal is to recognize the type corresponding to each code token. The dataset contains token sequences of TypeScript code and their corresponding type labels, with its data fields including tokens, labels, url, path, commit_hash, and file. The dataset structure includes the split ratios for the training, validation, and test sets.
提供机构:
kevinjesse
原始信息汇总

数据集概述

名称: ManyTypes4TypeScript

语言: TypeScript

类型: 单语种

大小: 10M<n<100M

许可证: CC-BY-4.0

任务: 结构预测(structure-prediction),具体为类型推断(type-inference)

数据集结构

数据实例

  • tokens: 字符串列表,代码的词元序列。
  • labels: 字符串列表,对应的类型标签。
  • url: 字符串,代码仓库的URL。
  • path: 字符串,包含代码的原始文件路径。
  • commit_hash: 字符串,原始项目中的提交标识符。
  • file: 字符串,文件名。

数据字段

  • tokens: 词元序列,用于代码的词元化。
  • labels: 类型标签列表,与词元对应。
  • url: 代码仓库的URL。
  • path: 原始文件路径。
  • commit_hash: 提交标识符。
  • file: 文件名。

数据分割

  • projects: 训练集75.00%,验证集12.5%,测试集12.5%。
  • files: 训练集90.53%,验证集4.43%,测试集5.04%。
  • sequences: 训练集91.95%,验证集3.71%,测试集4.34%。
  • types: 训练集95.33%,验证集2.21%,测试集2.46%。

数据集创建

注释

  • 注释创建者: 人类开发者和TypeScript编译器。
  • 注释过程: 人类在可选类型语言中注释类型,编译器推断注释。

许可证信息

  • 许可证: Creative Commons 4.0 (CC) license
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作