Drug-ADR

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/tonnnnnnnnnnnnn/Drug-ADR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了患者报告的严重不良反应信息，以及相关的药品信息。具体包括患者的年龄、性别、体重、发病年龄等，还有报告的最后更新日期、接收日期等，以及不良反应的类型和严重程度。此外，还包括了药品的名称和关键信息。

This dataset contains patient-reported information on serious adverse reactions and related pharmaceutical details. Specifically, it covers patients' age, gender, body weight, and age at the onset of adverse reactions, as well as the last update date and receipt date of the reports, along with the type and severity of the adverse reactions. Furthermore, it includes the names and key information of the associated pharmaceutical products.

创建时间：

2025-09-12

原始信息汇总

Drug-ADR 数据集概述

数据集基本信息

数据集地址：https://huggingface.co/datasets/tonnnnnnnnnnnnn/Drug-ADR
配置数量：13个独立配置
数据格式：结构化表格数据

主要配置详情

baseline 配置

样本数量：19,332,776
数据大小：5,381,771,986字节
下载大小：536,754,432字节
特征字段：
- 患者信息：年龄、发病年龄、年龄单位、性别、体重
- 报告信息：安全报告ID、最后更新日期、最近接收日期、接收日期
- 严重性指标：先天异常、死亡、致残、危及生命、其他严重情况、严重性标志
- 报告者信息：公司、国家、资质

default 配置

样本数量：2,000,000
数据大小：565,222,791字节
下载大小：54,195,969字节
特征字段：与baseline配置相同，但数据类型不同（包含数值型和字符串型）

药物相关配置

split_drug_dict 配置

样本数量：849,423
数据大小：48,840,584字节
下载大小：35,292,508字节
特征字段：药品名称、产品键

split_drug_map 配置

样本数量：8,000,000（分8个部分）
数据大小：956,639,194字节
下载大小：159,948,334字节
特征字段：安全报告ID、药品名称、药物特性描述、产品键

不良反应相关配置

split_adr_dict 配置

样本数量：5,045
数据大小：120,660字节
下载大小：68,606字节
特征字段：MedDRA术语反应

split_adr_map 配置

样本数量：84,932
数据大小：2,814,549字节
下载大小：1,005,074字节
特征字段：安全报告ID、MedDRA术语反应

数据类型特征

字符串类型：患者性别、年龄单位、严重性标志、报告者信息等
数值类型：年龄、体重、日期、严重性指标（浮点数或整数）
标识符类型：安全报告ID、产品键

数据规模统计

总样本量：超过3000万条记录
数据总量：约6.5GB
下载总量：约1.2GB

搜集汇总

数据集介绍

构建方式

在药物安全监测领域，Drug-ADR数据集通过系统整合全球药物不良事件报告系统（FAERS）数据构建而成。该数据集采用多配置结构化设计，涵盖患者人口统计学信息、药物使用记录及不良反应事件等关键字段，通过安全报告标识符实现跨表关联，确保了数据源的权威性与完整性。数据经过标准化清洗与医学编码转换，形成适用于大规模药物安全分析的规范化数据体系。

特点

本数据集的核心特征在于其多维度的药物安全信息架构，包含超过1900万条不良事件报告记录，覆盖患者年龄、性别、药物表征及严重不良反应类型等20余个专业字段。数据采用分块存储策略，支持按药物字典、不良反应术语表及映射关系进行灵活提取，兼具医学专业性与计算高效性，为药物警戒研究提供高粒度分析基础。

使用方法

研究人员可通过HuggingFace平台直接加载数据集的不同配置模块，例如使用default配置获取基础患者报告数据，或调用split_drug_map模块分析药物-事件关联关系。数据集支持按安全报告ID进行跨表联接，便于开展药物不良反应信号挖掘、风险因子分析及机器学习模型训练，建议结合MedDRA术语体系进行规范化解析以提升研究准确性。

背景与挑战

背景概述

药物不良反应监测是药物安全研究的重要领域，Drug-ADR数据集源于对药物安全监测的迫切需求。该数据集整合了全球药物不良反应报告系统数据，包含患者基本信息、药物使用记录及不良反应事件等关键字段。通过系统化收集1930余万条医疗报告记录，为药物流行病学研究提供了大规模真实世界证据。这类数据集通常由国际医药监管机构或学术研究团队构建，旨在通过数据分析识别潜在药物风险模式，推动药物安全预警系统的智能化发展。

当前挑战

在药物安全监测领域，准确识别药物与不良反应的因果关系面临巨大挑战。Drug-ADR数据集需解决自发报告系统固有的信号噪声问题，包括报告偏倚、数据不完整性和混杂因素干扰。构建过程中遭遇了多源数据标准化难题，需要统一不同医疗体系的术语编码和报告格式。数据清洗环节需处理大量缺失值和异常值，同时保持医疗数据的原始真实性。此外，隐私保护要求对患者敏感信息进行严格脱敏处理，这增加了数据预处理的复杂性。

常用场景

经典使用场景

在药物安全监测领域，Drug-ADR数据集通过整合患者基本信息、药物使用记录与不良反应报告，为研究人员提供了大规模的真实世界证据。该数据集典型应用于构建药物-不良反应关联模型，通过统计分析挖掘潜在信号，支持药物警戒系统的开发与优化，成为医药监管和临床决策的重要数据基础。

实际应用

实际应用中，Drug-ADR数据集被广泛用于构建智能药物安全预警平台，协助制药企业、监管机构进行风险效益评估。通过自动化分析海量报告数据，该系统能够及时发现潜在药物风险，优化临床用药方案，并为公共卫生政策的制定提供数据驱动的决策支持。

衍生相关工作

基于该数据集衍生的经典工作包括基于图神经网络的药物相互作用预测模型、多任务学习框架下的不良反应分类系统，以及结合因果推理的药物风险量化研究。这些成果显著推动了药物安全人工智能领域的发展，并为后续跨模态药物安全分析提供了重要范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集