DART (Drug Annotation from Regulatory Texts)

Name: DART (Drug Annotation from Regulatory Texts)
Creator: 意大利那不勒斯费德里科二世大学电子工程与信息技术系(DIETI),意大利那不勒斯,意大利
Published: 2025-10-21 17:53:17
License: 暂无描述

arXiv2025-10-21 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/praiselab-picuslab/DART

下载链接

链接失效反馈

官方服务：

资源简介：

DART数据集是由意大利药品管理局（AIFA）的官方数据构建的，它是一个包含超过16029个意大利药品特性摘要的结构化语料库，这些摘要来源于意大利药品管理局的官方存储库。该数据集提供了关于药品的关键药理学领域，如适应症、不良反应和药物相互作用的结构化信息。DART数据集是通过一个可复现的流程构建的，包括从网络规模文档检索、监管部分的语义分割，以及使用低温度解码的少量样本调整的大型语言模型进行临床摘要。该数据集为意大利临床自然语言处理社区和更广泛的健康数据科学生态系统提供了一个宝贵的资源，支持大规模语言模型在监管和临床环境中的训练、评估和部署。

The DART dataset is constructed using official data from the Italian Medicines Agency (AIFA). It is a structured corpus containing over 16,029 Italian drug characteristic summaries sourced from the official repository of the Italian Medicines Agency. This dataset provides structured information on key pharmacological domains of medicinal products, including indications, adverse reactions, and drug-drug interactions. The DART dataset is built via a reproducible workflow, which encompasses web-scale document retrieval, semantic segmentation of regulatory sections, and clinical summarization powered by few-shot fine-tuned large language models with low-temperature decoding. This dataset serves as a valuable resource for the Italian clinical natural language processing community and the broader health data science ecosystem, supporting the training, evaluation, and deployment of large language models in regulatory and clinical settings.

提供机构：

意大利那不勒斯费德里科二世大学电子工程与信息技术系(DIETI),意大利那不勒斯,意大利

创建时间：

2025-10-21

搜集汇总

数据集介绍

构建方式

在药物监管文本结构化处理领域，DART数据集通过三阶段可复现流程构建：首先利用自动化爬虫技术从意大利药品管理局门户网站的程序化接口获取产品特性摘要文档，随后采用语义解析与正则表达式匹配相结合的方法对监管章节进行智能分割，最后通过基于LLaMA 3.1-405B大语言模型的低温度解码技术生成标准化临床摘要。该流程成功处理了16,029份文档，涵盖95百万词汇量，并通过结构化验证机制确保97%的关键监管章节被准确识别。

特点

该数据集的核心价值体现在其独特的结构化特征与领域专业性。作为首个意大利语药物监管文本结构化语料库，DART完整保留了产品特性摘要的语义框架，系统化组织治疗适应症、药物相互作用和不良反应等关键药理信息。其技术特色包括采用大语言模型生成的标准化临床摘要，通过低温度解码策略确保95%的事实一致性，同时维持102,749个专业术语构成的丰富词汇体系。数据集还精确映射了意大利医保报销分类体系，为跨机构临床决策支持提供了标准化数据基础。

使用方法

在临床自然语言处理应用中，DART数据集支持多维度研究范式。研究者可通过其结构化字段直接提取药物相互作用三元组，构建可解释的监管知识图谱；利用预生成的临床摘要训练领域专用语言模型，实现药物风险自动分类与警戒报告生成；结合检索增强生成技术，开发基于证据的药物相互作用检测系统。实验表明，集成DART摘要的轻量级模型在药物相互作用检测任务中召回率达到0.843，显著提升临床决策系统的准确性与可追溯性。

背景与挑战

背景概述

在生物医学自然语言处理领域，从监管文档中提取药理知识已成为关键研究方向，其应用范围涵盖药物不良反应监测至人工智能辅助临床决策支持。DART数据集由那不勒斯费德里科二世大学与西北大学联合团队于2025年创建，聚焦意大利药品管理局的产品特性摘要文档结构化处理。该数据集通过可复现的自动化流程构建，涵盖网页级文档检索、语义段落分割及大语言模型临床摘要生成，有效填补了意大利语医疗系统专用资源的空白，为临床自然语言处理研究提供了标准化数据基础。

当前挑战

该数据集致力于解决药物相互作用检测与不良反应提取等药理文本挖掘任务，其核心挑战在于处理意大利语监管文档特有的复杂语法结构与专业术语体系。在构建过程中面临多重技术难题：需通过逆向工程解析意大利药品管理局未公开的API接口，应对约4.1%扫描文档的文本层缺失问题，并设计正则表达式引擎以准确识别动态变化的监管段落标题。此外，药物相互作用检测模块需平衡大语言模型输入长度限制与语义完整性，通过低温解码策略控制摘要生成的事实一致性，确保临床决策支持的可靠性。

常用场景

经典使用场景

在生物医学自然语言处理领域，DART数据集被广泛应用于药物警戒和临床决策支持系统的开发。该数据集通过语义解析意大利药品特性摘要的监管文本，构建了标准化的结构化语料库，为药物相互作用检测、不良反应提取等关键任务提供了可靠的数据基础。其经典应用场景包括利用大语言模型进行药物相互作用检查，通过总结监管章节内容来识别潜在的临床风险，并评估其严重程度，从而辅助医疗专业人员做出更安全的处方决策。

衍生相关工作

基于DART数据集衍生的经典工作包括构建药物相互作用检测框架，其中LLaMA等大语言模型与监管摘要相结合，显著提升了检测召回率。其他重要衍生研究涵盖领域特异性语言模型的微调、监管知识图谱的自动构建，以及临床决策支持系统的半自动化填充。这些工作通过将结构化监管知识与生成式人工智能技术融合，推动了可解释性临床人工智能工具的发展，并为多语言生物医学自然语言处理设立了新的基准。

数据集最近研究