BI55/MedText

Name: BI55/MedText
Creator: BI55
Published: 2023-07-25 09:30:17
License: 暂无描述

Hugging Face2023-07-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BI55/MedText

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个医疗诊断数据集，包含超过1000个高质量的教科书级别的患者表现和诊断/治疗方案。数据集涵盖了100种最常见的疾病和30种最常见的伤害，每种情况都有从轻微到复杂到严重的多个数据点。数据集还包括关于AI性质的完成，强调AI不能替代医生，并明确指出在无法自信回答或信息不足时的处理方式。数据集的内容包括噪声/数据污染、杂项、分析、伤害和疾病等多个方面，具体列举了各种伤害和疾病的类型。数据集是使用GPT-4转换的原始数据，经过医生评估为‘教科书质量’。

This is a medical diagnosis dataset containing over 1,000 high-quality, textbook-grade patient presentations as well as diagnostic and treatment plans. The dataset covers 100 of the most common diseases and 30 of the most prevalent injuries, with each condition having multiple data points ranging from mild to complex to severe cases. It also includes content addressing the nature of AI application, emphasizing that AI cannot replace physicians, and explicitly specifies the handling protocols for situations where confident answers cannot be given or information is insufficient. The dataset's content spans multiple aspects including noise/data contamination, miscellaneous items, analysis, injuries and diseases, with specific listings of various injury and disease types. This dataset was converted from raw data using GPT-4, and has been assessed as 'textbook-quality' by medical practitioners.

提供机构：

BI55

原始信息汇总

数据集概述

数据集名称

Medtext

数据集内容

患者表现及诊断/治疗计划：包含超过1000个高质量的医学教科书级别的患者表现和诊断/治疗案例。
常见疾病和伤害：涵盖100种最常见的疾病和30种最常见的伤害，每个案例都有多个数据点，从轻微到复杂再到严重。
其他内容：
- 噪声/数据污染：包括非医学或非心理问题的排除、信息不足时的请求更多信息、冲突/矛盾和无关信息、症状误导诊断的案例、关于模型自身的信息（如模型的能力、不能替代医生的声明等）。
- 其他：紧急情况/急救、犯罪导致的伤害、性伤害和性传播疾病、婴儿特定案例、妇科和泌尿科案例、遗传异常、先前的医疗处理不当、药物滥用/过量/误用、药物交叉副作用。
- 分析：血液测试、超声、CT、MRI和X射线检查的文本分析。
- 伤害：扭伤、骨折、挫伤、切割和撕裂伤、脑震荡、烧伤、脱位、擦伤、鞭打损伤、眼部伤害、穿刺伤、咬伤和螫伤、背部伤害、鼻骨骨折、膝盖伤害、脚踝伤害、肩膀伤害、手腕伤害、胸部伤害、头部伤害。
- 疾病：包括多种常见疾病，如痤疮、过敏、阿尔茨海默病、贫血、心绞痛、焦虑症、关节炎、哮喘、动脉硬化、足癣、注意力缺陷多动障碍、自闭症谱系障碍等。

数据集特点

随机排序：数据点随机排列，不按类别排序，以防止按类别遗忘。
模型训练：模型在训练时会明确指出无法自信回答的情况或数据不足的情况，以防止幻觉产生。

数据集使用许可

CC BY 4.0

搜集汇总

数据集介绍

构建方式

在医疗文本数据集的构建领域，BI55/MedText数据集通过系统化流程确保了内容的专业性与多样性。原始数据经由GPT-4模型转化为统一格式的数据点，涵盖了超过1000例教科书质量的病例呈现与诊疗方案。为确保临床准确性，构建过程中随机抽取了10个样本，由三位医生（包括参与及未参与项目的专业人士）进行独立评估，一致认可其达到教科书级别的质量。数据点经过随机排序处理，打破了按类别排列的固有模式，旨在缓解模型训练中可能出现的灾难性遗忘问题。

特点

该数据集在医疗诊断领域展现出鲜明的特色，其内容不仅囊括了100种常见疾病与30类常见损伤，还细致呈现了从轻度到重度不同复杂程度的病例。数据集特意引入了噪声与数据污染元素，例如包含模型自我认知的陈述、对非医学问题的驳回、以及诊断信心不足时的明确声明，这些设计有效抑制了模型幻觉。此外，数据集广泛覆盖了急诊、妇科、儿科、药物滥用及医学影像分析等多元场景，构建了一个高度逼真且具备警示意义的医疗文本环境。

使用方法

在医疗人工智能模型的开发与应用中，该数据集主要服务于诊断辅助系统的训练与评估。使用者可直接将其用于监督学习，以提升模型对患者主诉的理解与诊疗建议的生成能力。数据集的随机排序特性建议在训练流程中予以保留，以优化模型的知识泛化性能。鉴于数据集内嵌了对于诊断不确定性的强调，开发者可借此校准模型的输出置信度，确保其在临床决策支持中保持审慎态度，始终建议用户寻求专业医疗帮助。

背景与挑战

背景概述

在医疗人工智能领域，高质量诊断数据的稀缺性长期制约着模型性能的提升。BI55/MedText数据集应运而生，由研究团队借助GPT-4技术构建，收录了超过1000例教科书级别的患者临床表现与诊疗方案。该数据集系统覆盖了最常见的100种疾病与30类损伤，从轻度到危重病例均设有多个数据点，并通过专业医师的盲审验证确保了内容的权威性。其核心目标在于为医疗对话系统提供精准可靠的训练素材，推动诊断辅助工具向专业化、规范化发展，同时以CC BY 4.0协议开放共享，促进了学术与产业界的协作创新。

当前挑战

该数据集致力于应对医疗诊断文本生成的复杂性挑战，包括症状描述的歧义性、多模态检查数据的整合解析，以及模型在信息不足时对不确定性的合理表达。构建过程中，团队需克服医学知识结构化转换的困难，通过大语言模型实现非标准化临床记录的规范化处理；同时刻意引入噪声数据与矛盾案例，以增强模型对误导性症状的辨别能力与抗幻觉鲁棒性。此外，平衡病例的多样性与深度、确保伦理合规性（如强调AI不可替代医生）亦是数据集设计的关键难点。

常用场景

经典使用场景

在医学人工智能领域，BI55/MedText数据集以其教科书级的患者表现与诊断方案，为模型训练提供了高质量的语料基础。该数据集涵盖了从常见疾病到复杂损伤的广泛案例，尤其注重症状描述的多样性与诊断逻辑的严谨性，使得模型能够学习到精准的医学推理模式。通过引入噪声数据与不确定性表达，该数据集有效模拟了真实临床场景中的信息模糊性，从而助力模型在生成诊断建议时保持审慎态度，避免过度自信导致的误判。

解决学术问题

该数据集针对医学自然语言处理中的关键挑战，如模型幻觉与诊断可靠性不足等问题，提供了系统性的解决方案。通过纳入矛盾信息、不完整表述及明确的能力边界声明，数据集引导模型识别自身局限，从而在学术研究中推动可信人工智能的发展。其丰富的病理覆盖与多层次案例设计，为探索疾病表征学习、临床决策支持系统的鲁棒性评估等课题，奠定了坚实的数据基础，显著提升了医学AI研究的实用价值与伦理规范性。

衍生相关工作

围绕该数据集，研究社区已衍生出多项经典工作，主要集中在医学对话生成、诊断可信度评估及临床知识图谱构建等领域。例如，利用其噪声数据设计的抗幻觉训练框架，被广泛用于提升模型在开放域医学问答中的稳定性；基于病例多样性开发的多任务学习模型，则显著增强了诊断预测的泛化能力。这些工作不仅深化了医学语言理解的技术边界，也为后续更大规模医疗数据集的构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集