hackathon-mdt-outcome-proformas

github2026-03-20 更新2026-03-22 收录

下载链接：

https://github.com/dsikar/clinical-ai-hackathon

下载链接

链接失效反馈

官方服务：

资源简介：

50个合成的MDT病例，使用虚拟NHS号码（以NNN开头）和日期偏移进行匿名化处理。

50 synthetic Multidisciplinary Team (MDT) cases, anonymized using virtual NHS numbers starting with NNN and date offsets.

创建时间：

2026-03-13

原始信息汇总

数据集概述

数据集背景

该数据集源于一个临床人工智能黑客马拉松，旨在解决英国国家医疗服务体系（NHS）中多学科团队会议（MDT）数据管理问题。
临床问题：MDT会议的患者数据收集不一致，且难以从医院数据库（如infoflex）中提取用于审计或研究的有意义数据。
目标：探索利用MDT列表和结果单（Word文档）作为输入，自动填充可搜索数据库的解决方案。

数据集内容

输入数据：https://github.com/dsikar/clinical-ai-hackathon/blob/main/data/hackathon-mdt-outcome-proformas.docx
- 包含50个合成的MDT病例。
- 已通过虚拟NHS编号（以“NNN”开头）和日期偏移进行匿名化处理。
输出数据：https://github.com/dsikar/clinical-ai-hackathon/blob/main/data/hackathon-database-prototype.xlsx
- 以顺序（线性）格式呈现的患者纵向数据。
- 属性根据文档内容填充。
- 若信息缺失或未讨论，单元格留空（null）。
- 作为“真实情况”或预期输出。

成功标准

生成的Excel纵向患者数据需准确反映Word文档中包含的患者历史信息。

技术考虑

技术标准（DTAC）：开发的软件应尽可能符合数字技术评估标准，特别是临床安全性和数据驻留要求。
医疗器械合规性：根据风险级别和临床决策支持程度，软件可能被归类为软件即医疗器械，需遵守特定法规。
HL7 FHIR：用于通过RESTful API和JSON/XML格式安全、高效交换电子健康数据的现代开源标准框架。
SNOMED CT：提供肿瘤形态学、部位、分期和分级的全面代码集，与TNM分类等国际标准保持一致，用于电子健康记录中的肿瘤识别、分类和分期。

相关资源

示例MDT结果（输入）：https://github.com/dsikar/clinical-ai-hackathon/blob/main/docs/mdt_outcome.png
示例原型（输出）：https://github.com/dsikar/clinical-ai-hackathon/blob/main/docs/prototype.png
基线解决方案：位于baseline-solution/目录中，提供了可工作的起点。

搜集汇总

数据集介绍

构建方式

在肿瘤多学科诊疗领域，临床决策的规范化记录对于提升诊疗质量与科研效率至关重要。hackathon-mdt-outcome-proformas数据集的构建源于对英国国家医疗服务体系内多学科团队会议记录数字化需求的响应。该数据集通过合成50例匿名肿瘤病例模拟真实临床场景，采用虚拟国民医疗服务号码与日期偏移技术确保患者隐私，其输入形式为包含结构化诊疗讨论与决策的Word文档，输出则对应为以线性时序排列的Excel格式纵向患者数据库，完整映射了从非结构化文本到结构化数据的转化过程。

特点

该数据集的核心特征体现在其高度仿真的临床决策流程与标准化的输出架构。输入文档严格遵循多学科团队会议的临床叙事逻辑，涵盖肿瘤分期、治疗历史、影像与病理讨论要点等关键元素，输出数据库则采用时序纵向结构，完整保留诊疗事件的演进轨迹。数据集特别设计了信息缺失的空白单元格，以真实反映临床记录中常见的数据不完整性，为自然语言处理模型处理非结构化医疗文本提供了贴近现实的训练与评估环境。

使用方法

研究人员可利用该数据集开发自动化信息提取系统，将非结构化的多学科团队会议记录转化为结构化数据库。典型工作流程包括：首先解析Word文档中的临床叙述，识别患者标识符、肿瘤分期、治疗建议等实体；随后通过时序建模将离散事件整合为连贯的患者诊疗历程；最终输出符合临床审计与研究需求的标准化表格。该数据集亦支持对信息提取算法的鲁棒性评估，特别是在处理临床术语变异、叙述模糊性及数据缺失场景时的性能验证。

背景与挑战

背景概述

在肿瘤诊疗领域，多学科团队会议是提升患者生存率的核心机制，其决策过程依赖于人工整理与记录，导致数据整合面临显著障碍。hackathon-mdt-outcome-proformas数据集由圣乔治大学医院NHS基金会信托的临床学者与英国国防部等机构合作创建，旨在通过人工智能技术解析MDT会议生成的Word文档，自动提取结构化临床数据。该数据集包含50例合成病例，模拟真实医疗场景中的患者讨论记录与决策结果，核心研究问题聚焦于如何实现非结构化临床文本到标准化数据库的高效转换，以支持临床审计与科研分析，推动肿瘤诊疗流程的数字化革新。

当前挑战

该数据集致力于解决临床决策支持系统中非结构化文本信息提取的挑战，具体体现为从自由格式的MDT讨论记录中准确识别并关联患者的纵向治疗历史、肿瘤分期、影像与病理学关键指标。构建过程中的挑战包括：确保合成数据的临床真实性同时遵守匿名化规范；在信息缺失或表述不一致的情况下维持数据完整性；以及满足医疗软件监管标准如DTAC与SaMD分类要求，实现与现有医院信息系统如HL7 FHIR和SNOMED CT编码体系的无缝对接。

常用场景

经典使用场景

在临床肿瘤学领域，多学科团队会议是制定癌症诊疗方案的核心机制，然而其记录过程依赖人工整理，导致数据碎片化与检索困难。该数据集通过提供50份合成的MDT结果表单，模拟了真实的临床讨论文档，为自然语言处理与信息提取技术构建了测试平台。研究者可利用这些文档训练模型，自动从非结构化的Word报告中抽取关键临床变量，如肿瘤分期、治疗历史与讨论结论，从而验证自动化数据采集流程的可行性，为优化MDT工作流程提供技术验证。

衍生相关工作

围绕该数据集所揭示的临床文本信息提取需求，已衍生出多项经典研究工作。例如，结合HL7 FHIR标准构建可互操作的医疗数据模型，确保提取信息的标准化输出；利用SNOMED CT术语体系对肿瘤形态与部位进行编码，实现语义层面的归一化；此外，基于大语言模型的智能体开发框架也被用于构建端到端的文档解析管道。这些工作共同推动了临床自然语言处理领域的发展，为自动化临床数据管理提供了多层次的技术解决方案。

数据集最近研究