zgcarvalho/uniref50-test
收藏Hugging Face2023-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zgcarvalho/uniref50-test
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
size_categories: 10M<n<100M
pretty_name: UniRef50
tags:
- biology
- protein
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
dataset_info:
features:
- name: id
dtype: string
- name: sequence
dtype: string
splits:
- name: train
num_bytes: 15468741441.32825
num_examples: 49719601
- name: test
num_bytes: 3867185593.6717486
num_examples: 12429901
download_size: 18625264941
dataset_size: 19335927035.0
---
# Dataset Card for UniRef50
## Dataset Description
- **Homepage:**
- **Repository:**
- **Paper:**
- **Leaderboard:**
- **Point of Contact:**
### Dataset Summary
[More Information Needed]
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
[More Information Needed]
## Dataset Structure
### Data Instances
[More Information Needed]
### Data Fields
[More Information Needed]
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
[More Information Needed]
---
许可证:CC BY 4.0
规模类别:样本数量介于1000万与1亿之间
展示名称:UniRef50
标签:
- 生物学
- 蛋白质
配置项:
- 配置名称:默认
数据文件:
- 拆分:训练集
路径:data/train-*
- 拆分:测试集
路径:data/test-*
数据集信息:
特征字段:
- 名称:id
数据类型:字符串
- 名称:序列
数据类型:字符串
数据拆分:
- 拆分名称:训练集
字节数:15468741441.32825
样本数量:49719601
- 拆分名称:测试集
字节数:3867185593.6717486
样本数量:12429901
下载总大小:18625264941
数据集总大小:19335927035.0
---
# UniRef50 数据集卡片
## 数据集说明
- **主页:**
- **代码仓库:**
- **相关论文:**
- **排行榜:**
- **联系人:**
### 数据集概述
[需补充更多信息]
### 支持任务与排行榜
[需补充更多信息]
### 语言支持
[需补充更多信息]
## 数据集结构
### 数据样例
[需补充更多信息]
### 数据字段说明
[需补充更多信息]
### 数据拆分说明
[需补充更多信息]
## 数据集构建
### 构建依据
[需补充更多信息]
### 源数据
#### 初始数据收集与标准化处理
[需补充更多信息]
#### 源数据生产者是谁?
[需补充更多信息]
### 标注信息
#### 标注流程
[需补充更多信息]
#### 标注人员是谁?
[需补充更多信息]
### 个人与敏感信息说明
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差分析
[需补充更多信息]
### 其他已知局限性
[需补充更多信息]
## 附加信息
### 数据集维护者
[需补充更多信息]
### 许可证信息
[需补充更多信息]
### 引用信息
[需补充更多信息]
### 贡献说明
[需补充更多信息]
提供机构:
zgcarvalho
原始信息汇总
数据集卡片 for UniRef50
数据集描述
数据集概要
- 许可证: cc-by-4.0
- 大小类别: 10M<n<100M
- 名称: UniRef50
- 标签:
- biology
- protein
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 分割: test
- 路径: data/test-*
- 分割: train
- 数据文件:
数据集信息
-
特征:
- 名称: id
- 数据类型: string
- 名称: sequence
- 数据类型: string
- 名称: id
-
分割:
- 名称: train
- 字节数: 15468741441.32825
- 样本数: 49719601
- 名称: test
- 字节数: 3867185593.6717486
- 样本数: 12429901
- 名称: train
-
下载大小: 18625264941
-
数据集大小: 19335927035.0
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含蛋白质序列的生物学数据集,格式为parquet,大小在10M到100M之间,主要用于蛋白质相关研究。数据集包含62.1M行数据,分为49.7M行的训练集和12.4M行的测试集。
以上内容由遇见数据集搜集并总结生成



