Noisy Diagnostic Benchmark (NDB)

Name: Noisy Diagnostic Benchmark (NDB)
Creator: Holon Institute of Technology, Afeka Academic College of Engineering, Tel Aviv Israel
Published: 2025-09-15 19:34:46
License: 暂无描述

arXiv2025-09-15 更新2025-09-17 收录

下载链接：

https://www.holon.ac.il/

下载链接

链接失效反馈

官方服务：

资源简介：

Noisy Diagnostic Benchmark (NDB) 是一个模拟患者自我描述的合成数据集，这些描述具有不同程度的语言噪音、模糊语言和俗语。数据集包含临床一致的情景，并带有真实诊断标注，反映了从清晰到模糊的沟通清晰度，以反映现实世界的报告风格。该数据集旨在模拟真实世界的患者沟通，以便在现实的语言环境下压力测试和比较大型语言模型（LLMs）的诊断能力。

Noisy Diagnostic Benchmark (NDB) is a synthetic dataset that simulates patient self-reports, which feature varying degrees of linguistic noise, vague language, and colloquialisms. The dataset includes clinically consistent scenarios paired with ground-truth diagnostic annotations, covering the full spectrum of communication clarity from explicit to ambiguous to mirror real-world reporting styles. This benchmark is designed to simulate real-world patient communication, enabling stress testing and comparative evaluation of the diagnostic capabilities of large language models (LLMs) under realistic linguistic contexts.

提供机构：

Holon Institute of Technology, Afeka Academic College of Engineering, Tel Aviv Israel

创建时间：

2025-09-15

搜集汇总

数据集介绍

构建方式

在医疗自然语言处理领域，嘈杂的患者自述数据对模型鲁棒性评估至关重要。NDB数据集通过从症状导向的疾病标注数据集（SDPD）中采样症状，利用大语言模型生成三种平行文本：无噪声版本、中等噪声（80-220词）和重度噪声（150-390词）版本，最终形成3600组叙事三元组。每个样本均保持临床一致性，并通过系统化引入词汇、句法和语义层面的噪声来模拟真实世界患者表达的模糊性与不规范性。

使用方法

NDB数据集适用于监督式分类框架下的诊断能力评估。研究者可首先在无噪声临床文本上微调模型（如BERT、ClinicalBERT或Flan-T5），随后逐步测试模型在中等噪声与重度噪声文本上的诊断准确性衰减。该基准支持跨模型鲁棒性对比，并可扩展至噪声感知训练策略的开发。通过提供结构化噪声分级与标注，该数据集为医疗NLP领域提供了可复现的退化输入评估范式。

背景与挑战

背景概述

在医疗人工智能领域，患者自述文本的噪声处理一直是自然语言处理技术的核心难题。2024年，以色列霍隆理工学院数字医疗技术系的Eden Mama团队联合多个学术机构，推出了Noisy Diagnostic Benchmark (NDB)数据集。该数据集通过合成具有不同语言噪声水平的患者描述文本，旨在系统评估大语言模型在真实医疗场景下的诊断推理能力。其创新性在于模拟了非结构化、模糊且包含语法错误的患者叙事，填补了现有临床文本数据集局限于清洁结构化数据的空白，为医疗NLP研究提供了重要的基准测试工具。

当前挑战

NDB数据集主要应对医疗诊断中患者语言噪声处理的挑战，包括口语化表达、拼写错误、语义模糊及逻辑断裂等问题。在构建过程中，研究团队需要平衡临床准确性与语言多样性，确保合成文本既符合医学逻辑又涵盖真实噪声特征。此外，数据标注需保证诊断标签的权威性，同时设计多级噪声注入机制以模拟从清晰到重度模糊的沟通谱系，这对文本生成算法和医学知识验证提出了双重技术要求。

常用场景

经典使用场景

在医疗自然语言处理研究中，Noisy Diagnostic Benchmark（NDB）数据集被广泛应用于评估大型语言模型对非结构化患者自述文本的诊断能力。该数据集通过模拟真实世界中患者描述症状时存在的语言噪声、模糊表达和口语化特征，为研究者提供了一个标准化的测试平台。经典使用场景包括在不同噪声水平下微调BERT、ClinicalBERT和Flan-T5等模型，系统分析其诊断准确性的变化趋势，从而揭示模型在嘈杂语言环境中的鲁棒性局限与优势。

解决学术问题

NDB数据集有效解决了医疗NLP领域中对噪声文本理解能力评估的空白问题。传统研究多基于清洗后的结构化临床文本，难以反映现实中医患沟通的复杂性。该数据集通过合成具有不同噪声等级的患者描述，并标注真实诊断标签，使研究者能够量化模型在语言模糊、拼写错误和语义扭曲等条件下的性能衰减。其意义在于推动了噪声感知训练范式的发展，为构建更稳健的临床诊断模型提供了关键数据支撑。

实际应用

在实际医疗场景中，NDB数据集为开发面向患者的智能诊断系统提供了重要测试基准。其合成的噪声叙事可模拟在线健康咨询、移动医疗应用中的用户输入，帮助优化虚拟分诊系统和症状检查工具的语义理解能力。例如，通过测试模型对包含冗余细节、情绪化表达或方言变体的患者描述的处理效果，能够指导临床AI系统在基层医疗、远程会诊等场景中实现更精准的初步诊断建议。

数据集最近研究