ekrombouts/Galaxy_records

Name: ekrombouts/Galaxy_records
Creator: ekrombouts
Published: 2024-07-12 10:24:19
License: 暂无描述

Hugging Face2024-07-12 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/ekrombouts/Galaxy_records

下载链接

链接失效反馈

官方服务：

资源简介：

Galaxy Datasets是一个包含四个合成数据集的集合，用于NLP实验，涉及养老院环境中的客户记录。每个数据集都有特定的目的，并基于前一个数据集构建，为各种NLP任务提供了有用的资源。具体包括：Galaxy_clients包含养老院居民的档案信息；Galaxy_scenarios基于Galaxy_clients的信息创建详细的情景描述；Galaxy_records包含基于Galaxy_scenarios情景的合成护理记录；Galaxy_summaries包含Galaxy_records中记录的月度摘要，可用于文本摘要模型的训练。

The Galaxy Datasets are a collection of four synthetic datasets created for NLP experiments, featuring client records in a nursing home setting. Each dataset serves a specific purpose and builds upon the previous one, providing a useful resource for various NLP tasks. The datasets include client information, detailed scenarios, synthetic care records, and monthly summaries, suitable for tasks such as text summarization.

提供机构：

ekrombouts

原始信息汇总

数据集概述

数据集信息

特征:
- ct_id: 数据类型为 int64
- month: 数据类型为 int64
- iteration: 数据类型为 int64
- day: 数据类型为 int64
- time: 数据类型为 string
- note: 数据类型为 string
分割:
- train: 包含 29668 个样本，占用 5562147 字节
下载大小: 2130008 字节
数据集大小: 5562147 字节
配置:
- default: 数据文件路径为 data/train-*
许可证: cc-by-sa-4.0
任务类别: 摘要生成
语言: 荷兰语
标签: 医疗
名称: Client Records for Nursing Home Residents
大小类别: 10K<n<100K

数据集描述

Galaxy Datasets 是一系列为 NLP 实验创建的四个合成数据集，涵盖了养老院居民的客户记录。每个数据集服务于特定的目的，并基于前一个数据集构建，为各种 NLP 任务提供有用的资源。

Galaxy_clients: 包含养老院居民的档案，包括数据生成前每个客户的月数以及他们在居住期间经历的并发症。该数据集提供了生成真实场景和护理报告所需的基本客户信息。
Galaxy_scenarios: 使用 Galaxy_clients 的信息为每个客户创建详细的场景。这些场景描述了潜在的情况和并发症，作为生成合成护理笔记的基础。
Galaxy_records: 包含基于 Galaxy_scenarios 中描述的场景生成的客户记录和合成护理笔记。这些护理笔记提供了每个客户接收护理的详细和结构化文档，模拟了用于 NLP 模型训练和测试的现实世界医疗文档。
Galaxy_summaries: 包含 Galaxy_records 中笔记的月度摘要。最初创建用于支持 Galaxy_records 的生成过程，这些摘要也可以用于训练开源模型进行文本摘要，为开发和改进摘要技术提供宝贵的资源。

搜集汇总

数据集介绍

构建方式

在医疗信息学领域，合成数据集的构建为自然语言处理研究提供了可控且符合伦理的语料来源。Galaxy_records数据集作为Galaxy系列的一部分，其构建过程遵循层次化生成逻辑：首先基于Galaxy_clients中虚构的护理院居民档案，提取个体特征与并发症信息；随后利用Galaxy_scenarios中衍生的详细情境描述，通过结构化模板生成模拟护理记录；最终形成包含时间戳、客户标识与护理笔记的合成文档，每条记录均对应特定客户的照护事件，确保了数据在临床场景下的内在一致性与叙事连贯性。

特点

该数据集在医疗文本建模领域展现出鲜明的专业特性。其核心特征在于全合成性质，既规避了真实患者数据的隐私风险，又保留了护理记录特有的叙述结构与医学术语体系。数据条目涵盖近三万条带时间标记的护理笔记，每条笔记均锚定于虚构客户的特定照护场景，形成了时序化的记录序列。这种设计不仅模拟了真实医疗文档的渐进式记载特点，还为时序性自然语言处理任务提供了结构化基础。数据集语言为荷兰语，进一步丰富了非英语医疗文本资源的多样性。

使用方法

在自然语言处理应用中，该数据集主要服务于文本摘要任务的模型训练与评估。研究者可将时序排列的护理笔记作为输入文本，利用其对应的月度摘要进行监督学习，以训练临床文本归纳模型。使用前需通过HuggingFace数据集库加载，并依据客户标识与时间戳字段进行数据切片与序列重组。建议结合同系列中的Galaxy_summaries数据集构建端到端摘要流水线，同时注意其合成数据本质，在模型验证阶段需补充真实临床语料进行泛化能力测试。

背景与挑战

背景概述

Galaxy_records数据集是Galaxy系列数据集的一部分，专注于模拟养老院居民护理记录的文本生成任务。该数据集由研究人员ekrombouts创建，旨在为自然语言处理实验提供高质量的合成医疗文本资源。其核心研究问题在于如何生成真实、结构化的护理笔记，以支持医疗文档自动化和文本摘要等下游应用。通过构建包含居民档案、情景描述、护理记录及月度摘要的完整数据链，该数据集为医疗NLP领域提供了宝贵的实验基础，尤其在隐私敏感的真实医疗数据难以获取的背景下，推动了合成数据生成技术的发展。

当前挑战

Galaxy_records数据集面临的挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决医疗文本摘要与文档生成的难题，但合成数据需在医学准确性、术语规范性和叙事连贯性上逼近真实护理记录，这对生成模型的语义保真度提出了较高要求；在构建过程中，挑战源于如何基于居民档案和情景描述生成多样且合理的护理笔记，同时确保时间序列逻辑一致、医疗事件符合临床常识，并避免生成偏差或重复模式，以维持数据集的实用性和泛化能力。

常用场景

经典使用场景

在自然语言处理领域，Galaxy_records数据集为医疗文本生成与理解提供了关键资源。该数据集模拟了护理院环境中的客户记录，包含基于预设场景生成的合成护理笔记，这些笔记结构清晰、内容详实，能够有效支持文本摘要任务的模型训练与评估。通过提供大量标注的医疗文档，研究者可以探索如何从复杂医疗记录中提取核心信息，进而推动自动摘要技术在医疗文档处理中的应用。

衍生相关工作

围绕Galaxy_records数据集，已衍生出多项经典研究工作，主要集中在医疗文本摘要与生成领域。例如，研究者利用该数据集训练了基于Transformer的摘要模型，探索了从长篇护理笔记中提取关键事件的方法。同时，该数据集也被用于评估少样本学习在医疗场景下的性能，推动了跨领域自然语言处理技术的创新，为后续医疗AI系统的开发奠定了坚实基础。

数据集最近研究