MADE

Name: MADE
Creator: 弗劳恩霍夫协会·海因里希赫兹研究所
Published: 2026-04-17 00:28:16
License: 暂无描述

arXiv2026-04-17 更新2026-04-19 收录

下载链接：

https://hhi.fraunhofer.de/aml-demonstrator/made-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MADE是由弗劳恩霍夫协会构建的动态多标签医疗文本分类基准，基于美国FDA发布的医疗器械不良事件报告构建，包含48.8万条事件描述及1154个层次化标签。数据集通过时间划分（2015-2023训练/2024验证/2024-2025测试）确保评估纯净性，平均每条数据含370个token和8.79个标签，具有显著的长尾分布特征。其创新性体现在持续更新的'动态基准'机制，通过季度新增报告避免模型预训练数据污染，主要应用于医疗安全监测领域，为不确定性量化研究提供标准测试平台。

MADE is a dynamic multi-label medical text classification benchmark developed by the Fraunhofer Society. It is constructed based on medical device adverse event reports released by the U.S. Food and Drug Administration (FDA), containing 488,000 event descriptions and 1,154 hierarchical labels. The dataset adopts a temporal split (2015–2023 for training, 2024 for validation, and 2024–2025 for testing) to ensure evaluation purity. Each sample contains an average of 370 tokens and 8.79 labels, and exhibits a prominent long-tailed distribution characteristic. Its innovation lies in the continuously updated 'dynamic benchmark' mechanism, which adds new reports quarterly to avoid pre-training data contamination. It is primarily applied in the field of medical safety monitoring and provides a standard test platform for uncertainty quantification research.

提供机构：

弗劳恩霍夫协会·海因里希赫兹研究所

创建时间：

2026-04-17

原始信息汇总

MADE：医疗设备不良事件多标签文本分类与不确定性量化的动态基准

数据集概述

MADE 是一个用于多标签文本分类（MLTC）的动态基准，源自医疗设备不良事件报告，并持续更新新发布的报告以防止数据污染。该基准旨在支持对预测性能和不确定性量化（UQ）的联合评估，特别适用于医疗等高风险领域。

关键数据特征

总报告数：488,273
唯一标签数：1,154
平均标签数/报告：8.79
平均长度：约 370 个词元
标签分布：具有长尾分布的层次化标签

数据划分

采用基于时间的划分以减少泄漏：

训练集：2015–2023
验证集：2024年1月–6月
测试集：2024年7月–2025年6月
截断测试集：10,288 份报告（用于交互式评估）

评估模型与方法

比较的模型架构与学习范式

判别式微调
生成式微调
少样本提示（包括“思考/推理”变体）
推理模型

不确定性估计方法

判别式模型：基于概率的熵
生成式模型：词元概率信号（如熵/困惑度/对数概率）、跨多次随机生成的一致性度量
自述置信度（评估发现不可靠）

评分指标

预测性能

宏平均 F1 分数
Jaccard 指数（多标签重叠度）

不确定性质量

不确定性对错误的排序能力（PRR + Spearman ρ）
真阳性置信度校准（ECE）

主要结果观察

准确性与稀有性权衡：经过微调的判别式解码器在常见到稀有标签上表现最佳，而提示方法对极端稀有标签最有帮助，但在常见标签上可能滞后。
可靠性是一个独立维度：生成式微调通常比提示方法产生更强的不确定性信号；推理模型可以提升稀有标签性能，但表现出较弱的不确定性行为。

引用信息

@misc{agarwal2026madelivingbenchmarkmultilabel, title={MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events}, author={Raunak Agarwal and Markus Wenzel and Simon Baur and Jonas Zimmer and George Harvey and Jackie Ma}, year={2026}, eprint={2604.15203}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.15203}, }

搜集汇总

数据集介绍

构建方式

MADE数据集构建于美国食品药品监督管理局（FDA）公开的医疗器械不良事件报告，通过严谨的预处理流程形成。原始报告自2015年至2025年中期被系统收集，从中提取事件描述、元数据及产品与患者问题标签。这些标签依据国际医疗器械监管机构论坛（IMDRF）术语体系映射为三层层次结构编码，并通过向上传播确保层级一致性。为保障数据质量，研究者剔除了出现次数少于5次的极端稀有标签，并基于事件描述的嵌入表示进行去重与聚类下采样，最终形成包含1,154个标签的长尾分布数据集。数据按严格时间划分：2015年至2023年用于训练，2024年上半年用于验证，2024年7月至2025年6月用于测试，这种时序分割有效避免了数据污染，并为持续更新的“活体基准”奠定了基础。

特点

MADE数据集的核心特征体现在其作为医疗领域多标签文本分类基准的挑战性与前沿性。数据集包含488,273个样本，每个样本平均标注8.79个标签，标签体系呈现显著的三层层次结构与严重的类间不平衡，遵循长尾分布，其中大量安全关键类别位于分布尾部。这种结构真实反映了现实世界医疗报告中文档与多标签、标签依赖并存的复杂性。区别于传统静态基准，MADE被设计为“活体基准”，其测试集将随着FDA每季度发布的新报告而持续更新，从而确保评估数据始终晚于前沿大语言模型的训练截止时间，从根本上杜绝了测试数据污染问题，为模型泛化与推理能力的纯净评估提供了可靠环境。

使用方法

该数据集主要用于评估多标签文本分类模型的预测性能及其不确定性量化能力。研究者可依据严格的时间划分使用训练、验证和测试集，对编码器-解码器架构、判别式与生成式微调以及少样本提示等多种学习范式进行基准测试。在不确定性量化方面，数据集支持对基于信息熵、一致性以及模型自述置信度等多种方法进行系统评估，具体可通过预测拒绝率、斯皮尔曼相关系数与正类预期校准误差等指标衡量。使用流程通常包括：利用训练集微调模型，在验证集上选择阈值或调整超参数，最终在未见过的时序测试集上报告宏观F1分数、杰卡德相似系数及不确定性量化指标。数据集的代码与预处理版本已公开，便于复现与后续研究。

背景与挑战

背景概述

MADE（Medical Device Adverse Events）数据集由弗劳恩霍夫海因里希·赫兹研究所的研究团队于2026年提出，旨在构建一个动态、无污染的医疗多标签文本分类基准。该数据集源自美国食品药品监督管理局公开的医疗器械不良事件报告，核心研究聚焦于在医疗这一高风险领域实现可靠的不确定性量化与多标签分类。通过严格的时序划分与持续更新机制，MADE有效避免了传统静态基准中常见的数据污染问题，为评估模型在真实世界长尾分布与层级标签依赖下的泛化与可靠性提供了关键工具。

当前挑战

MADE所针对的领域挑战在于医疗多标签文本分类中固有的标签不平衡、层级依赖与组合复杂性，这要求模型在确保预测性能的同时，必须提供可靠的不确定性估计以支持人工复核。在构建过程中，研究团队面临多重挑战：首先，需将原始报告中的非结构化文本与FDA术语映射至国际医疗器械监管论坛的标准化层级编码体系，并处理标注不一致性与潜在的系统偏差；其次，为维持数据集的“动态”特性，必须设计可复现的流水线以持续纳入新报告，同时冻结标签体系以防止测试集出现未知标签，并采用聚类与分层采样来应对极端长尾分布，确保基准的统计有效性与评估公平性。

常用场景

经典使用场景

在医疗设备安全监测领域，MADE数据集为多标签文本分类任务提供了一个动态更新的基准平台。其核心应用场景在于对医疗设备不良事件报告进行自动化编码与分类，依据国际医疗设备监管论坛（IMDRF）的层次化标签体系，将非结构化的文本描述映射至标准化的产品问题与患者问题类别。这一过程不仅涉及从海量报告中识别高频常见问题，更需精准捕捉长尾分布中罕见但关键的安全事件，从而系统评估模型在真实世界不平衡数据下的泛化能力与鲁棒性。

解决学术问题

MADE数据集旨在解决多标签文本分类研究中若干关键挑战：其一，通过严格的时序划分与持续更新机制，有效避免了数据污染对模型评估的干扰，为前沿大语言模型提供了纯净的测试环境；其二，其层次化标签结构与极端长尾分布特性，迫使模型必须学习标签间的依赖关系并克服严重的类别不平衡，从而推动对模型真实推理能力而非记忆效应的深入探究；其三，数据集系统整合了不确定性量化评估，为高风险医疗场景中模型预测的可信度衡量提供了标准化框架，促进了可靠机器学习系统的发展。

衍生相关工作

基于MADE数据集，研究社区已衍生出一系列探索模型架构与学习范式的经典工作。例如，系统比较了编码器模型（如Ettin系列）与解码器模型（如Llama系列）在判别式微调与生成式微调下的性能差异，揭示了小规模判别式微调解码器在保持竞争性不确定性量化能力的同时，能取得最优的整体分类精度。此外，研究深入评估了基于熵的信息不确定性、基于一致性的图拉普拉斯特征值方法以及模型自述置信度等多种不确定性量化策略，明确了令牌熵方法在效果与效率上的综合优势，为后续可靠多标签分类系统的设计提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集