five

h1alexbel/srdataset

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/h1alexbel/srdataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置都有不同的特征,主要涉及GitHub仓库的相关信息,如仓库名称、发布次数、贡献者数量、拉取请求、提交、问题、分支和工作流等。数据集分为多个配置,每个配置都有一个训练集分割,适用于与GitHub仓库相关的数据分析任务。

This dataset contains multiple configurations, each with different features primarily related to GitHub repositories, such as repository name, number of releases, number of contributors, pull requests, commits, issues, branches, and workflows. The dataset is divided into multiple configurations, each with a training split, suitable for data analysis tasks related to GitHub repositories.
提供机构:
h1alexbel
原始信息汇总

数据集概述

数据集配置

默认配置 (default)

  • 特征:
    • repo: 字符串
    • releases: 64位整数
    • contributors: 64位整数
    • pulls: 64位整数
    • commits: 64位整数
    • issues: 64位整数
    • branches: 64位整数
    • workflows: 64位整数
  • 分割:
    • train:
      • 字节数: 366422
      • 样本数: 4456
  • 下载大小: 176973 字节
  • 数据集大小: 366422 字节

过滤配置 (filtered)

  • 特征:
    • repo: 字符串
    • readme: 字符串
    • description: 字符串
    • topics: 字符串
    • releases: 64位整数
    • contributors: 64位整数
    • pulls: 64位整数
    • commits: 64位整数
    • issues: 64位整数
    • branches: 64位整数
    • workflows: 64位整数
  • 分割:
    • train:
      • 字节数: 33669099
      • 样本数: 3316
  • 下载大小: 16993942 字节
  • 数据集大小: 33669099 字节

数值配置 (numerical)

  • 特征:
    • repo: 字符串
    • releases: 64位整数
    • contributors: 64位整数
    • pulls: 64位整数
    • commits: 64位整数
    • issues: 64位整数
    • branches: 64位整数
    • workflows: 64位整数
  • 分割:
    • train:
      • 字节数: 366422
      • 样本数: 4456
  • 下载大小: 176973 字节
  • 数据集大小: 366422 字节

仓库配置 (repos)

  • 特征:
    • repo: 字符串
    • readme: 字符串
    • description: 字符串
    • topics: 字符串
    • releases: 64位整数
    • contributors: 64位整数
    • pulls: 64位整数
    • commits: 64位整数
    • issues: 64位整数
    • branches: 64位整数
    • workflows: 64位整数
  • 分割:
    • train:
      • 字节数: 61616341
      • 样本数: 4456
  • 下载大小: 28734136 字节
  • 数据集大小: 61616341 字节

相似配置 (similar)

  • 特征:
    • head: 字符串
    • dimension: 字符串
    • similar: 字符串
  • 分割:
    • train:
      • 字节数: 502
      • 样本数: 1
  • 下载大小: 4826 字节
  • 数据集大小: 502 字节

文本嵌入配置 (text-embeddings)

  • 特征:
    • 0383: 64位浮点数
  • 分割:
    • train:
      • 字节数: 1536000
      • 样本数: 500
  • 下载大小: 1786517 字节
  • 数据集大小: 1536000 字节

文本配置 (texts)

  • 特征:
    • text: 字符串
    • repo: 字符串
  • 分割:
    • train:
      • 字节数: 33539456
      • 样本数: 3316
  • 下载大小: 16862065 字节
  • 数据集大小: 33539456 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作