ricardosantoss/mimic

Name: ricardosantoss/mimic
Creator: ricardosantoss
Published: 2023-09-19 18:02:19
License: 暂无描述

Hugging Face2023-09-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ricardosantoss/mimic

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: validation path: data/validation-* dataset_info: features: - name: TEXT dtype: string - name: ICD9_CODE sequence: string splits: - name: train num_bytes: 350160331 num_examples: 39354 - name: test num_bytes: 44827959 num_examples: 5000 - name: validation num_bytes: 44381049 num_examples: 5000 download_size: 245192456 dataset_size: 439369339 --- # Dataset Card for "mimic" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default（默认配置）数据文件： - 数据集拆分：train（训练集），路径：data/train-* - 数据集拆分：test（测试集），路径：data/test-* - 数据集拆分：validation（验证集），路径：data/validation-* 数据集信息：特征字段： - 字段名：TEXT，数据类型：字符串 - 字段名：ICD9_CODE（ICD-9编码），数据类型：字符串序列数据集拆分详情： - 拆分名称：train（训练集），字节大小：350160331，样本数量：39354 - 拆分名称：test（测试集），字节大小：44827959，样本数量：5000 - 拆分名称：validation（验证集），字节大小：44381049，样本数量：5000 下载总大小：245192456，数据集总存储大小：439369339 --- # 「mimic」数据集卡片 [需补充更多相关信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

ricardosantoss

原始信息汇总

数据集概述

数据集配置

默认配置 (default)
- 数据文件路径：
  - 训练集 (train): data/train-*
  - 测试集 (test): data/test-*
  - 验证集 (validation): data/validation-*

数据集信息

特征：
- TEXT: 字符串类型
- ICD9_CODE: 字符串序列
数据分割：
- 训练集 (train):
  - 字节数: 350160331
  - 样本数: 39354
- 测试集 (test):
  - 字节数: 44827959
  - 样本数: 5000
- 验证集 (validation):
  - 字节数: 44381049
  - 样本数: 5000
数据集大小：
- 下载大小: 245192456 字节
- 数据集大小: 439369339 字节

搜集汇总

数据集介绍

构建方式

在医疗信息处理领域，ricardosantoss/mimic数据集的构建采用了分区分文件的策略。数据集分为训练集、测试集和验证集，分别存储在data/train-*、data/test-*和data/validation-*路径下，每份数据包含了TEXT文本信息和ICD9_CODE序列编码，确保了数据集的多样性和可用性。

特点

该数据集显著的特点在于，其不仅包含了大量的医疗文本数据，还对应了ICD9编码，这为文本分类、编码匹配等医疗信息处理任务提供了丰富的数据资源。此外，数据集经过精心设计，保证了训练集、测试集和验证集之间的合理分布，有利于模型的训练和评估。

使用方法

使用该数据集时，用户可根据自身的需求，选择适当的分区进行模型的训练、验证和测试。数据集的文件结构清晰，易于加载和处理。用户可以通过HuggingFace的datasets库直接加载该数据集，进而开展相应的医疗信息处理研究。

背景与挑战

背景概述

mimic数据集，全称为Medical Information Mart for Intensive Care，是由美国麻省理工学院（MIT）和麻省总医院（MGH）的研究团队共同创建于2014年。该数据集源于重症监护病房（ICU）的电子健康记录（EHR），旨在为医疗信息学研究提供一个大规模的、经过匿名处理的临床数据集。其主要研究人员包括数据库领域的专家和临床医生，核心研究问题是利用大数据技术对ICU患者的病状进行预测分析，对相关领域如医疗信息化、机器学习与健康数据分析产生了深远影响。

当前挑战

mimic数据集在构建过程中所遇到的挑战主要包括数据的隐私保护、数据清洗与标准化、以及数据的多模态性。首先，由于数据来源于敏感的临床信息，确保患者隐私的安全是首要挑战。其次，数据清洗和标准化工作繁琐，涉及医疗术语的统一和结构化处理。此外，数据集的多模态性，即包含了文本、代码等多种数据类型，对数据整合和处理提出了更高的技术要求。在解决领域问题方面，如何从复杂的多源异构数据中提取有效信息，进行准确的疾病预测和风险评估，是当前面临的挑战。

常用场景

经典使用场景

在医学文本挖掘领域，ricardosantoss/mimic数据集以其翔实的医疗记录文本和对应的ICD9编码序列，成为研究者在构建自然语言处理模型时的经典用例。该数据集被广泛用于训练模型以理解和分类医疗文档中的关键信息，从而提升医疗信息处理的自动化程度。

实际应用

在现实世界中，ricardosantoss/mimic数据集的应用场景广泛，包括但不限于辅助医疗决策、疾病预测、医疗质量控制以及患者健康管理等。通过该数据集训练的模型能够协助医生快速准确地进行病情分析，从而提升医疗服务质量。

衍生相关工作

该数据集催生了大量相关的经典工作，如构建更为精准的医疗编码识别模型、开发面向特定疾病的预测工具，以及探索医疗数据中的深层次模式。这些工作进一步推动了医学自然语言处理技术的发展，为医疗健康领域的信息化进程提供了强有力的技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集