mstz/haberman
收藏Hugging Face2023-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/haberman
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- haberman
- tabular_classification
- binary_classification
- multiclass_classification
pretty_name: Haberman
size_categories:
- n<1K
task_categories:
- tabular-classification
configs:
- survival
license: cc
---
# Haberman
The [Haberman dataset](https://archive.ics.uci.edu/ml/datasets/Haberman) from the [UCI ML repository](https://archive.ics.uci.edu/ml/datasets).
Has the patient survived surgery?
# Configurations and tasks
| **Configuration** | **Task** | **Description** |
|-------------------|---------------------------|------------------------------------|
| sruvival | Binary classification | Has the patient survived surgery? |
# Usage
```python
from datasets import load_dataset
dataset = load_dataset("mstz/haberman", "survival")["train"]
```
---
语言:
- 英语(en)
标签:
- 哈伯曼数据集(Haberman)
- 表格分类(tabular_classification)
- 二元分类(binary_classification)
- 多分类(multiclass_classification)
展示名称:哈伯曼(Haberman)
样本规模类别:
- 样本数小于1000(n<1K)
任务类别:
- 表格分类(tabular-classification)
配置项:
- 生存(survival)
许可证:CC
---
# 哈伯曼数据集
本数据集源自[UCI机器学习仓库(UCI ML repository)](https://archive.ics.uci.edu/ml/datasets)的[哈伯曼数据集(Haberman dataset)](https://archive.ics.uci.edu/ml/datasets/Haberman),核心研究问题为:患者是否在手术后存活?
# 配置项与任务
| **配置项** | **任务类型** | **描述** |
|------------|--------------|----------|
| 生存(survival) | 二元分类 | 判断患者是否在手术后存活 |
# 使用方法
python
from datasets import load_dataset
dataset = load_dataset("mstz/haberman", "survival")["train"]
提供机构:
mstz
原始信息汇总
数据集概述
基本信息
- 名称: Haberman
- 语言: 英语
- 标签:
- haberman
- tabular_classification
- binary_classification
- multiclass_classification
- 大小类别: n<1K
- 任务类别: tabular-classification
- 配置: survival
- 许可证: cc
数据集来源
任务描述
- 配置/任务:
- 配置: survival
- 任务: Binary classification
- 描述: Has the patient survived surgery?
使用示例
python from datasets import load_dataset
dataset = load_dataset("mstz/haberman", "survival")["train"]
搜集汇总
数据集介绍

构建方式
Haberman数据集源于UCI机器学习库,其构建基于一项针对乳腺癌患者手术后的生存情况的研究。数据集采集了306名患者的术后生存数据,包括患者的年龄、手术前一年内的体检结果、手术时是否为第一次手术以及肿瘤的尺寸等信息,以此构建了一个表格型数据集,旨在探究影响生存率的多种因素。
特点
该数据集的特点在于其规模适中,易于处理,且标签为二元分类,即患者术后是否生存。其数据分布涵盖了多种影响因素,使得该数据集在医学领域的二分类任务中具有较高的参考价值。此外,数据集遵循Creative Commons许可,便于学术研究和共享。
使用方法
使用该数据集时,用户需通过HuggingFace的datasets库加载。如需加载数据集的训练部分,可以使用load_dataset函数,指定'dataset='mstz/haberman'和'task='survival',即可获得训练数据。此操作简便快捷,便于研究人员快速进行数据分析和模型训练。
背景与挑战
背景概述
Haberman数据集,源自UCI机器学习仓库,是一项经典的医学研究领域数据集。该数据集由美国波士顿大学的Samuel W. Haberman教授于1974年创建,旨在研究乳腺癌患者的术后生存情况。数据集包含了306名女性的病例信息,是医学统计和机器学习领域中二分类问题的典型案例。其研究成果对于提高乳腺癌手术后的生存率分析具有显著影响,为后续相关领域的研究提供了宝贵的数据资源。
当前挑战
Haberman数据集在构建和应用过程中面临的挑战主要包括:数据集规模较小,可能导致模型泛化能力不足;数据属性之间存在关联,增加了特征选择的复杂性;此外,由于数据集年代久远,部分信息的采集和记录方式可能不符合现代医学标准,从而对模型的准确性和时效性带来挑战。在解决领域问题方面,如何准确预测患者术后生存情况,以及如何处理数据集中存在的噪声和异常值,是当前研究的主要难点。
常用场景
经典使用场景
在医学研究领域,mstz/haberman数据集被广泛用于二分类任务,其经典的使用场景在于预测患者是否能够在手术中存活。该数据集包含了患者术前的一系列特征,如年龄、手术前住院时间等,以及一个二进制的结果变量,即患者是否存活。
衍生相关工作
基于mstz/haberman数据集的研究衍生出了多项相关工作,包括开发更复杂的生存预测模型,以及将数据集扩展到多类别分类任务中,如预测患者术后可能出现的并发症类型。这些工作进一步拓展了数据集的应用范围,加深了医学研究领域的知识积累。
数据集最近研究
最新研究方向
在医学数据挖掘领域,mstz/haberman数据集作为经典的二分类问题数据集,其最新研究方向主要集中在生存分析的精确化。研究者们致力于通过深度学习等方法,提高对手术患者生存情况的预测准确性。此数据集关联的热点事件包括精准医疗的发展趋势,其研究成果对于优化医疗决策、提升病患生存率具有重要的现实意义。
以上内容由遇见数据集搜集并总结生成



