nicu-vitalsigns-ts-description

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/JJoy333/nicu-vitalsigns-ts-description

下载链接

链接失效反馈

官方服务：

资源简介：

NICU Vitalsigns TS + Descriptions数据集提供了新生儿监护室(NICU)患者的生命体征时间序列（心率、血氧饱和度）和自然语言描述的多模态样本。这些样本可用于结合时间序列分析与基于文本的任务研究，如多模态建模、指令驱动的时序生成与编辑等。

创建时间：

2025-08-14

原始信息汇总

NICU Vitalsigns Time Series with Text Descriptions 数据集概述

数据集基本信息

名称：NICU Vitalsigns TS + Descriptions
许可证：MIT
任务类别：时间序列预测、文本到时间序列
标签：医疗保健、时间序列、自然语言、多模态

数据集内容

数据类型：多模态样本，包含NICU患者生命体征时间序列与自然语言描述的配对数据
生理信号：心率（hr/）和血氧饱和度（sp/）
数据划分：每个信号均分为train、test和left三个子集
样本结构：每个样本包含一个时间序列片段和一个相关的文本指令或描述

用途

临床相关性：模拟和评估基于自然语言的婴儿生理信号任务
研究方向：
- 时间序列和语言的多模态建模
- 基于指令的时间序列生成和编辑
- 使用LLM或扩散模型的临床决策支持和假设分析
- 医学时间序列任务的适应

引用信息

bibtex @misc{qiu2025instruction, title = {Instruction-based Time Series Editing}, author = {Qiu, Jiaxing and Guo, Dongliang and Sullivan, Brynne and Henry, Teague R. and Hartvigsen, Tom}, year = {2025}, eprint = {2508.01504}, archivePrefix = {arXiv}, primaryClass = {cs.LG}, doi = {10.48550/arXiv.2508.01504}, url = {https://arxiv.org/abs/2508.01504} }

搜集汇总

数据集介绍

构建方式

在新生儿重症监护医学领域，精确记录生理信号对临床研究至关重要。该数据集通过采集NICU患者的心率和血氧饱和度两种关键生理参数时间序列，并与专业医护人员撰写的自然语言描述进行配对，构建多模态样本。数据经过严格分割为训练集、测试集和保留集，采用Parquet格式高效存储，确保时间序列与文本指令的精确对齐。

特点

该数据集突出体现多模态融合的临床价值，同时包含高精度生理时间序列和语义丰富的文本描述。心率和血氧饱和度信号以标准化采样频率记录，文本指令涵盖临床观察、异常事件描述及干预建议。数据集支持跨模态学习任务，为语言-时间序列联合建模提供真实临床场景下的高质量样本，兼具医学专业性和机器学习友好性。

使用方法

研究人员可通过Hugging Face数据集库直接加载该资源，按生理信号类型和数据集划分分别调用。支持转换为Pandas DataFrame进行灵活分析，适用于时间序列预测、文本生成时间序列等多模态任务。该数据集专为临床人工智能研究设计，可与InstructTime等先进模型配合，开展指令驱动的生理信号编辑和医疗决策支持研究。

背景与挑战

背景概述

新生儿重症监护病房生命体征时间序列与文本描述数据集由Jiaxing Qiu等研究人员于2025年开发，作为InstructTime模型研究的重要组成部分。该数据集聚焦于临床环境中多模态人工智能建模的核心问题，通过配对新生儿心率和血氧饱和度时间序列与自然语言描述，为医疗时间序列与语言融合研究提供了重要资源。其创新性在于首次实现了指令驱动的时间序列编辑任务，对临床决策支持系统和智能医疗辅助技术的发展具有显著推动作用。

当前挑战

该数据集致力于解决医疗时间序列分析与自然语言处理融合领域的双重挑战：在领域问题层面，需要克服临床时间序列数据的高噪声特性与语言描述之间的语义对齐难题，以及医疗专业术语的准确理解和生成问题；在构建过程中，面临新生儿生理信号采集的伦理约束和数据质量控制挑战，同时需要确保文本描述与时间序列片段在时间维度上的精确对应，这对标注过程的专业性和一致性提出了极高要求。

常用场景

经典使用场景

在临床医学研究领域，该数据集通过整合新生儿重症监护室的心率与血氧饱和度时间序列数据及其自然语言描述，为多模态学习提供了典型范例。研究者可基于文本指令对生理信号进行生成与编辑任务，模拟临床场景下的决策支持过程，这种设计显著提升了模型对医疗时序数据的语义理解与操作能力。

衍生相关工作

围绕该数据集衍生的经典工作包括InstructTime等指令式时间序列编辑模型，这些研究探索了基于语言引导的时序数据合成与变换方法。此外，其多模态架构也启发了一系列临床语言-信号联合建模的研究，促进了扩散模型与大语言模型在医疗时序分析中的创新应用。

数据集最近研究

nicu-vitalsigns-ts-description

NICU Vitalsigns Time Series with Text Descriptions 数据集概述

数据集基本信息

数据集内容

用途

相关研究

引用信息