bloyal/uniref100
收藏Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bloyal/uniref100
下载链接
链接失效反馈官方服务:
资源简介:
---
language: en
license: cc-by-4.0
task_categories:
- fill-mask
pretty_name: UniRef100
dataset_info:
features:
- name: id
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 146408946868
num_examples: 356800925
download_size: 141620745676
dataset_size: 146408946868
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for UniRef100
## Dataset Description
- **Homepage:**
- https://www.uniprot.org/help/uniref
## Dataset Summary
UniRef100 data downloaded on January 24, 2024.
---
语言:英语
许可协议:CC BY 4.0(知识共享署名4.0国际许可协议)
任务类别:
- 掩码填充(fill-mask)
友好名称:UniRef100
数据集信息:
特征字段:
- 字段名:id,数据类型:字符串
- 字段名:text,数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节大小:146408946868,样本数量:356800925
下载总大小:141620745676
数据集存储总大小:146408946868
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分集:训练集(train),文件路径:data/train-*
---
# UniRef100 数据集卡片
## 数据集说明
- **官方主页:** https://www.uniprot.org/help/uniref
## 数据集概述
本UniRef100数据集于2024年1月24日完成下载。
提供机构:
bloyal
原始信息汇总
数据集卡片 for UniRef100
数据集描述
- 语言: 英语
- 许可证: CC-BY-4.0
- 任务类别: 填空
- 易读名称: UniRef100
数据集信息
特征
- 名称: id
- 数据类型: 字符串
- 名称: text
- 数据类型: 字符串
分割
- 名称: train
- 字节数: 146408946868
- 样本数: 356800925
下载和数据集大小
- 下载大小: 141620745676
- 数据集大小: 146408946868
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 分割: train
- 数据文件:
数据集摘要
UniRef100 数据下载于 2024年1月24日。
搜集汇总
数据集介绍

背景与挑战
背景概述
UniRef100是一个包含3.56亿条蛋白质序列的大规模数据集,适用于文本处理任务,数据格式为Parquet,大小为142GB,使用CC-BY-4.0许可证。
以上内容由遇见数据集搜集并总结生成



