mstz/fertility
收藏Hugging Face2023-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/fertility
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- fertility
- tabular_classification
- binary_classification
- multiclass_classification
- UCI
pretty_name: Fertility
size_categories:
- n<1K
task_categories:
- tabular-classification
configs:
- encoding
- fertility
license: cc
---
# Fertility
The [Fertility dataset](https://archive.ics.uci.edu/ml/datasets/Fertility) from the [UCI ML repository](https://archive.ics.uci.edu/ml/datasets).
Classify fertility abnormalities of patients.
# Configurations and tasks
| **Configuration** | **Task** | **Description** |
|-------------------|---------------------------|------------------------------------------|
| encoding | | Encoding dictionary |
| fertility | Binary classification | Does the patient have fertility issues? |
# Usage
```python
from datasets import load_dataset
dataset = load_dataset("mstz/fertility", "fertility")["train"]
```
# Features
|**Feature** |**Type** |
|----------------------------------------|------------------|
| season_of_sampling | `[string]` |
| age_at_time_of_sampling | `[int8]` |
| has_had_childhood_diseases | `[bool]` |
| has_had_serious_trauma | `[bool]` |
| has_had_surgical_interventions | `[bool]` |
| has_had_high_fevers_in_the_past_year | `[string]` |
| frequency_of_alcohol_consumption | `[float16]` |
| smoking_frequency | `[string]` |
| number_of_sitting_hours_per_day | `[float16]` |
---
语言:
- 英语
标签:
- 生育能力(fertility)
- 表格分类(tabular_classification)
- 二分类(binary_classification)
- 多分类(multiclass_classification)
- UCI
美观名称:生育能力(Fertility)
样本规模类别:
- n<1K(样本数少于1000)
任务类别:
- 表格分类(tabular-classification)
配置项:
- 编码(encoding)
- 生育能力(fertility)
许可证:CC
---
# 生育能力(Fertility)
本数据集为来自UCI机器学习存储库(UCI ML repository)的生育能力数据集(Fertility dataset),数据集链接为:https://archive.ics.uci.edu/ml/datasets/Fertility。
任务目标为对患者的生育能力异常情况进行分类。
# 配置项与任务
| **配置项** | **任务类型** | **描述** |
|-------------------|---------------------------|------------------------------------------|
| 编码(encoding) | 无 | 编码字典 |
| 生育能力(fertility) | 二分类(binary_classification) | 判断患者是否存在生育能力问题 |
# 使用方法
python
from datasets import load_dataset
dataset = load_dataset("mstz/fertility", "fertility")["train"]
# 特征字段
| **特征名称** | **数据类型** |
|----------------------------------------|------------------|
| 采样季节(season_of_sampling) | `string` |
| 采样时年龄(age_at_time_of_sampling) | `int8` |
| 童年是否罹患疾病(has_had_childhood_diseases) | `bool` |
| 是否经历过严重创伤(has_had_serious_trauma) | `bool` |
| 是否接受过外科手术干预(has_had_surgical_interventions) | `bool` |
| 过去一年是否出现过高烧(has_had_high_fevers_in_the_past_year) | `string` |
| 酒精消费频率(frequency_of_alcohol_consumption) | `float16` |
| 吸烟频率(smoking_frequency) | `string` |
| 每日久坐时长(number_of_sitting_hours_per_day) | `float16` |
提供机构:
mstz
原始信息汇总
数据集概述
基本信息
- 名称: Fertility
- 语言: 英语
- 标签:
- 生育
- 表格分类
- 二分类
- 多分类
- UCI
- 描述: 来自UCI ML仓库的Fertility数据集,用于分类患者的生育异常情况。
- 大小分类: n<1K
- 任务分类: 表格分类
- 许可证: cc
配置与任务
| 配置 | 任务 | 描述 |
|---|---|---|
| encoding | 编码字典 | |
| fertility | 二分类 | 患者是否存在生育问题 |
使用示例
python from datasets import load_dataset
dataset = load_dataset("mstz/fertility", "fertility")["train"]
特征
| 特征 | 类型 |
|---|---|
| season_of_sampling | [string] |
| age_at_time_of_sampling | [int8] |
| has_had_childhood_diseases | [bool] |
| has_had_serious_trauma | [bool] |
| has_had_surgical_interventions | [bool] |
| has_had_high_fevers_in_the_past_year | [string] |
| frequency_of_alcohol_consumption | [float16] |
| smoking_frequency | [string] |
| number_of_sitting_hours_per_day | [float16] |
搜集汇总
数据集介绍

构建方式
本数据集的构建基于UCI机器学习仓库中的Fertility数据集,旨在对患者的生育问题进行分类。数据集的构建涉及从实际医疗记录中提取与生育能力相关的特征,如季节采样、年龄、童年疾病史、重大创伤史、手术干预史、过去一年的高烧频率、酒精消费频率、吸烟频率以及每日坐姿时间等,并将这些特征进行编码,以支持机器学习模型的训练和评估。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库轻松加载。具体的使用方法为:首先导入datasets库,然后调用load_dataset函数,传入数据集名称'mstz/fertility'和配置名'fertility',即可加载训练集数据。数据集加载后,用户可以对数据进行预处理、特征工程、模型训练等操作,以实现对生育问题的分类预测。
背景与挑战
背景概述
在医学研究领域,尤其是生育健康领域,数据集的构建对于疾病诊断模型的开发至关重要。Fertility数据集,源自UCI机器学习仓库,由相关研究人员于上世纪90年代创建,旨在为研究生育异常提供数据支持。该数据集收集了患者的多种生理和生活方式信息,以二分类的形式标注患者是否存在生育问题,对于理解生育障碍的成因及发展具有显著的研究价值,并在医学诊断模型开发领域产生了广泛影响。
当前挑战
Fertility数据集在构建和应用过程中面临的挑战主要包括:如何在有限的样本量中提取具有代表性的特征,以解决小样本问题;如何在保证隐私的前提下,收集和处理敏感的生育健康数据;以及如何构建准确的分类模型,有效区分患者的生育正常与否,从而提高诊断的准确性和效率。
常用场景
经典使用场景
在医学研究领域,mstz/fertility数据集被广泛用于分类患者是否患有生育问题。该数据集通过收集患者的季节采样、年龄、病史、创伤史、手术干预史、过去一年高烧频率、酒精消费频率、吸烟频率以及每日坐姿小时数等特征,构建了一个二元分类模型,旨在预测患者是否存在生育障碍。
解决学术问题
mstz/fertility数据集解决了生育障碍诊断中的分类问题,为医学研究提供了重要的数据支持。它帮助学者们探索各种可能的生育影响因素,并构建出精确的预测模型,从而为临床诊断提供辅助决策,提高了生育障碍诊断的准确性和效率。
实际应用
在实际应用中,mstz/fertility数据集的应用场景包括但不限于辅助医疗诊断、健康风险评估以及生育咨询服务。通过该数据集训练出的模型能够为医生提供有力的决策支持,为患者提供个性化的生育健康建议。
数据集最近研究
最新研究方向
在生育健康研究领域,mstz/fertility数据集的近期研究聚焦于利用表格数据的分类算法来预测患者生育问题。该数据集以其简洁的结构和明确的二分类任务——判断患者是否存在生育问题,成为了探索生育异常分类方法的热点资源。研究者们正致力于通过深度学习模型,如卷积神经网络和循环神经网络,来提高生育问题的预测准确性,进而为临床决策提供有力的数据支持。此类研究不仅推动了医学领域的进步,也对社会公共健康政策产生了深远的影响。
以上内容由遇见数据集搜集并总结生成



