version-control/ds-lib-version-2
收藏Hugging Face2024-01-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/version-control/ds-lib-version-2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: repo_name
dtype: string
- name: version
list:
- name: pyproject.toml
struct:
- name: matplotlib
dtype: string
- name: numpy
dtype: string
- name: pandas
dtype: string
- name: scikit-learn
dtype: string
- name: scipy
dtype: string
- name: tensorflow
dtype: string
- name: torch
dtype: string
- name: requirements.txt
struct:
- name: matplotlib
dtype: string
- name: numpy
dtype: string
- name: pandas
dtype: string
- name: scikit-learn
dtype: string
- name: scipy
dtype: string
- name: tensorflow
dtype: string
- name: torch
dtype: string
- name: setup.py
struct:
- name: matplotlib
dtype: string
- name: numpy
dtype: string
- name: pandas
dtype: string
- name: scikit-learn
dtype: string
- name: scipy
dtype: string
- name: tensorflow
dtype: string
- name: torch
dtype: string
- name: hexsha
sequence: string
splits:
- name: train
num_bytes: 2516181
num_examples: 10000
download_size: 827987
dataset_size: 2516181
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset is primarily used for recording and analyzing software repository dependencies. It includes repository names, version information (specifically for Python library dependencies in three files), and a serialized string (hexsha). The dataset is divided into a training set with 10000 samples, with a total size of 2516181 bytes.
提供机构:
version-control
原始信息汇总
数据集信息
特征
- repo_name: 类型为字符串。
- version: 包含以下列表:
- pyproject.toml: 包含以下结构:
- matplotlib: 类型为字符串。
- numpy: 类型为字符串。
- pandas: 类型为字符串。
- scikit-learn: 类型为字符串。
- scipy: 类型为字符串。
- tensorflow: 类型为字符串。
- torch: 类型为字符串。
- requirements.txt: 包含以下结构:
- matplotlib: 类型为字符串。
- numpy: 类型为字符串。
- pandas: 类型为字符串。
- scikit-learn: 类型为字符串。
- scipy: 类型为字符串。
- tensorflow: 类型为字符串。
- torch: 类型为字符串。
- setup.py: 包含以下结构:
- matplotlib: 类型为字符串。
- numpy: 类型为字符串。
- pandas: 类型为字符串。
- scikit-learn: 类型为字符串。
- scipy: 类型为字符串。
- tensorflow: 类型为字符串。
- torch: 类型为字符串。
- pyproject.toml: 包含以下结构:
- hexsha: 类型为字符串序列。
数据分割
- train: 包含2516181字节,10000个样本。
数据集大小
- 下载大小: 827987字节。
- 数据集大小: 2516181字节。
配置
- default: 包含以下数据文件:
- train: 路径为
data/train-*。
- train: 路径为



