mstz/yeast
收藏Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/yeast
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- yeast
- tabular_classification
- binary_classification
- multiclass_classification
- UCI
pretty_name: Yeast
size_categories:
- n<1K
task_categories:
- tabular-classification
configs:
- yeast
- yeast_0
- yeast_1
- yeast_2
- yeast_3
- yeast_4
- yeast_5
- yeast_6
- yeast_7
- yeast_8
- yeast_9
license: cc
---
# Yeast
The [Yeast dataset](https://archive-beta.ics.uci.edu/dataset/110/yeast) from the [UCI repository](https://archive-beta.ics.uci.edu/).
# Usage
```python
from datasets import load_dataset
dataset = load_dataset("mstz/yeast")["train"]
```
# Configurations and tasks
| **Configuration** | **Task** | **Description** |
|-----------------------|---------------------------|-------------------------|
| yeast | Multiclass classification.| |
| yeast_0 | Binary classification. | Is the instance of class 0? |
| yeast_1 | Binary classification. | Is the instance of class 1? |
| yeast_2 | Binary classification. | Is the instance of class 2? |
| yeast_3 | Binary classification. | Is the instance of class 3? |
| yeast_4 | Binary classification. | Is the instance of class 4? |
| yeast_5 | Binary classification. | Is the instance of class 5? |
| yeast_6 | Binary classification. | Is the instance of class 6? |
| yeast_7 | Binary classification. | Is the instance of class 7? |
| yeast_8 | Binary classification. | Is the instance of class 8? |
| yeast_9 | Binary classification. | Is the instance of class 9? |
---
语言:
- 英语
标签:
- 酵母
- 表格分类(tabular_classification)
- 二分类(binary_classification)
- 多分类(multiclass_classification)
- UCI
易读名称:酵母
样本量类别:
- 样本量小于1000
任务类别:
- 表格分类(tabular-classification)
配置项:
- 酵母
- 酵母_0
- 酵母_1
- 酵母_2
- 酵母_3
- 酵母_4
- 酵母_5
- 酵母_6
- 酵母_7
- 酵母_8
- 酵母_9
许可证:cc
---
# 酵母数据集
本数据集为源自[UCI存储库](https://archive-beta.ics.uci.edu/)的[酵母数据集(Yeast dataset)](https://archive-beta.ics.uci.edu/dataset/110/yeast)。
# 使用方法
python
from datasets import load_dataset
dataset = load_dataset("mstz/yeast")["train"]
## 配置项与任务
| **配置项** | **任务** | **描述** |
|-----------------------|---------------------------|-------------------------|
| 酵母 | 多分类任务。| |
| 酵母_0 | 二分类任务。 | 判断样本是否属于类别0? |
| 酵母_1 | 二分类任务。 | 判断样本是否属于类别1? |
| 酵母_2 | 二分类任务。 | 判断样本是否属于类别2? |
| 酵母_3 | 二分类任务。 | 判断样本是否属于类别3? |
| 酵母_4 | 二分类任务。 | 判断样本是否属于类别4? |
| 酵母_5 | 二分类任务。 | 判断样本是否属于类别5? |
| 酵母_6 | 二分类任务。 | 判断样本是否属于类别6? |
| 酵母_7 | 二分类任务。 | 判断样本是否属于类别7? |
| 酵母_8 | 二分类任务。 | 判断样本是否属于类别8? |
| 酵母_9 | 二分类任务。 | 判断样本是否属于类别9? |
提供机构:
mstz
原始信息汇总
数据集概述
基本信息
- 名称: Yeast
- 语言: 英语
- 标签:
- 酵母
- 表格分类
- 二元分类
- 多类别分类
- UCI
- 美观名称: Yeast
- 大小分类: n<1K
- 任务分类: 表格分类
- 配置:
- yeast
- yeast_0
- yeast_1
- yeast_2
- yeast_3
- yeast_4
- yeast_5
- yeast_6
- yeast_7
- yeast_8
- yeast_9
- 许可证: cc
配置与任务
| 配置 | 任务 | 描述 |
|---|---|---|
| yeast | 多类别分类 | |
| yeast_0 | 二元分类 | 是否属于类别0? |
| yeast_1 | 二元分类 | 是否属于类别1? |
| yeast_2 | 二元分类 | 是否属于类别2? |
| yeast_3 | 二元分类 | 是否属于类别3? |
| yeast_4 | 二元分类 | 是否属于类别4? |
| yeast_5 | 二元分类 | 是否属于类别5? |
| yeast_6 | 二元分类 | 是否属于类别6? |
| yeast_7 | 二元分类 | 是否属于类别7? |
| yeast_8 | 二元分类 | 是否属于类别8? |
| yeast_9 | 二元分类 | 是否属于类别9? |
搜集汇总
数据集介绍

构建方式
mstz/yeast数据集是基于酵母基因表达数据构建的,包含了不同条件下酵母细胞的表达谱。该数据集涵盖了从UCI机器学习库中的原始数据,通过预处理和格式化,形成了适用于机器学习模型的表格形式,每种配置代表了一个特定的分类任务。
特点
此数据集的特点在于其多样性,不仅提供了多类分类任务的完整数据,还针对每一个类别提供了二分类的数据配置。这些数据集规模较小,便于快速迭代和测试模型,同时涵盖了丰富的基因表达信息,为生物信息学领域的研究提供了宝贵的资源。
使用方法
使用mstz/yeast数据集时,用户可以通过HuggingFace的datasets库方便地加载。加载后的数据可以直接用于训练和评估机器学习模型。针对不同的分类任务,用户可以选择相应的配置,如yeast_0到yeast_9,以进行二分类任务,或使用yeast配置进行多类分类任务。
背景与挑战
背景概述
Yeast数据集源自UCI机器学习库,其创建旨在为表格数据分类研究提供实验材料。该数据集收集了酵母细胞周期不同阶段的基因表达数据,包含了14个属性,涉及多类分类问题。自发布以来,Yeast数据集在生物信息学、机器学习等领域中发挥着重要作用,成为研究基因表达调控与细胞周期分析的重要资源。
当前挑战
Yeast数据集在构建与应用过程中面临的挑战主要涉及两个方面:一是数据集的规模较小,包含的样本数量不足千个,这限制了模型学习的深度和泛化能力;二是数据集的多类分类特性带来了分类任务的技术挑战,如何精确区分酵母细胞周期的各个阶段是研究者必须解决的问题。此外,由于数据集属性的微观特性,特征选择与降维也成为了提升模型性能的关键挑战。
常用场景
经典使用场景
在生物信息学领域,mstz/yeast数据集是研究酵母基因功能分类的宝贵资源。该数据集常被用于构建和评估分类模型,以识别酵母基因序列所属的特定功能类别。其经典的使用场景在于,研究人员通过训练多类分类器,对基因进行精确分类,从而揭示其在细胞内的功能。
实际应用
在实际应用中,mstz/yeast数据集的应用场景广泛,包括但不限于生物技术、药物发现和疾病机理研究。通过对该数据集的分析,可以加速新药的筛选过程,提高疾病诊断的准确性,为医学研究和生物工业带来革命性的进展。
衍生相关工作
基于mstz/yeast数据集的研究衍生出了许多经典工作,如改进的分类算法、基因功能预测工具和生物信息学方法。这些工作不仅提升了数据集的利用效率,还为生物信息学的理论发展和实际应用提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成



