MCADRS
收藏arXiv2025-05-07 更新2025-05-09 收录
下载链接:
https://github.com/SofeeyaJ/GASCADE_ECIR2025
下载链接
链接失效反馈官方服务:
资源简介:
MCADRS数据集是由印度理工学院帕特纳分校计算机科学与工程学院的研究团队创建的,旨在帮助癌症药物警戒,提高药物相关决策。该数据集包含了2000条关于癌症药物及其不良反应的帖子,涉及791种独特的药物。数据集的内容包括患者对药物有效性和不良反应的关注,以及提取的药物名称、不良反应、严重性和反应不良性的标签,以及每个药物的ADE摘要。数据集的创建过程包括数据收集、数据注释和撰写金标准摘要。MCADRS数据集旨在解决癌症药物警戒中资源有限的问题,并为个性化癌症护理提供支持。
The MCADRS dataset was developed by a research team from the School of Computer Science and Engineering, Indian Institute of Technology Patna, with the objective of supporting cancer pharmacovigilance and improving drug-related decision-making. It contains 2000 posts regarding cancer drugs and their adverse reactions, involving 791 unique medications. The dataset includes patients’ concerns about drug efficacy and adverse reactions, as well as extracted labels for drug names, adverse reactions, their severity, and adverse event likelihood, plus adverse drug event (ADE) summaries for each individual drug. The construction of the MCADRS dataset encompasses three main stages: data collection, data annotation, and the writing of gold-standard summaries. The MCADRS dataset is designed to tackle the issue of limited resources in cancer pharmacovigilance and provide backing for personalized cancer care.
提供机构:
印度理工学院帕特纳分校计算机科学与工程学院
创建时间:
2025-05-07
原始信息汇总
数据集概述
数据集名称
MultiLabeled Cancer Adverse Drug Reaction and Summarization (MCADRS)
数据集来源
该数据集由论文《GASCADE: Grouped Summarization of Adverse Drug Events for Enhanced Cancer Pharmacovigilance》的作者团队发布,托管于GitHub仓库。
数据集内容
- 包含药物警戒帖子,详细记录了患者对药物疗效和不良反应的关注点。
- 提取的标签包括:药物名称、药物不良反应事件、严重程度、反应的不良程度。
- 每种药物的不良反应事件(ADEs)摘要。
数据集用途
- 支持癌症药物警戒研究。
- 用于药物相关决策制定。
- 促进对患者关注点的深入理解。
相关框架
Grouping and Abstractive Summarization of Cancer Adverse Drug Events (GASCADE) 框架:
- 结合大型语言模型(LLMs)的信息提取能力。
- 利用编码器-解码器T5模型的摘要生成能力。
- 首次在编码器-解码器模型中应用对齐技术,包括直接偏好优化等先进算法。
引用信息
引用格式: Jamil, S., Dabad, A., Reddy, B.A., Saha, S., Misra, R., Shakur, A.A. (2025). GASCADE: Grouped Summarization of Adverse Drug Event for Enhanced Cancer Pharmacovigilance. In: Hauff, C., et al. Advances in Information Retrieval. ECIR 2025. Lecture Notes in Computer Science, vol 15575. Springer, Cham. https://doi.org/10.1007/978-3-031-88717-8_17
搜集汇总
数据集介绍

构建方式
在癌症治疗领域,准确记录药物不良反应(ADRs)对提升药物警戒实践至关重要。MCADRS数据集的构建始于对在线健康论坛的系统性数据采集,重点关注癌症患者报告的化疗药物不良反应。研究团队采用Python的Selenium库从Cancer Research UK和Cancer Survival Network两大论坛中爬取约3,000条讨论数据,涵盖药物名称、不良反应描述及时间戳等信息。数据标注环节由医学专家主导,通过严格的标准筛选药物相关负面事件,并使用Cohen’s Kappa系数(0.75)验证标注一致性。最终阶段由医学实习生撰写黄金标准摘要,按不良反应严重程度分级排序,并经专家评审确定最终版本。
特点
作为首个专注于癌症药物警戒的多标签数据集,MCADRS包含2,000条论坛文本与791种独特抗癌药物的关联数据。其显著特征在于三重标注体系:药物名称、不良反应事件及严重程度分级(高/中/低),并配备人工撰写的分级摘要。相比现有通用药物不良反应数据集,该资源首次实现了癌症特异性不良反应的严重程度量化,且文本类型聚焦医疗论坛的真实患者叙述,包含大量非结构化口语表达。数据分布方面,高度严重事件占比18.7%,为临床决策提供了关键风险层级参考。
使用方法
该数据集支持三大应用场景:首先,可作为信息抽取任务的基准,训练模型识别药物名称与不良反应的关联;其次,支持按药物分组的抽象摘要生成,需以药物聚类结果为输入,采用T5等序列生成模型输出分级摘要;最后,其严重程度标签可用于构建风险预测模型。使用建议包括:1)预处理时需保留原文的非正式表达特征;2)分组摘要任务应遵循‘高-中-低’严重程度排序准则;3)评估指标推荐组合ROUGE与专用于医疗文本的Factual Recall分数。数据集按8:1:1划分训练/验证/测试集,确保模型开发与评估的可靠性。
背景与挑战
背景概述
MCADRS(MultiLabeled Cancer Adverse Drug Reaction and Summarization)数据集由印度理工学院帕特纳分校的Sofia Jamil等研究人员于2025年创建,旨在填补癌症药物警戒领域的数据空白。该数据集包含来自癌症论坛的2000条患者讨论帖,标注了791种癌症药物的不良反应事件(ADEs)、严重程度及摘要信息。其核心研究问题聚焦于癌症治疗中药物不良反应的自动化提取与摘要生成,以支持临床决策和药物安全性监测。作为首个针对癌症药物ADE的摘要数据集,MCADRS通过结合大语言模型与对齐优化技术,显著提升了药物警戒信息的结构化处理效率,为个性化癌症护理提供了数据基础。
当前挑战
MCADRS数据集面临双重挑战:在领域问题层面,需解决癌症药物ADE特有的复杂性,包括区分药物适应症与不良反应、量化严重程度分级,以及从非结构化社交媒体文本中提取专业医学术语;在构建过程中,数据收集受限于患者论坛的隐私政策与语言噪声,标注需协调医学专家对主观性较强的严重程度达成共识。此外,摘要生成需平衡临床准确性与可读性,而现有模型对癌症领域低资源场景的适应性不足,促使研究者开发基于QLoRA高效微调和DPO对齐的新型框架以优化性能。
常用场景
经典使用场景
在癌症药物治疗领域,MCADRS数据集被广泛应用于药物不良反应(ADR)的自动提取与摘要生成。该数据集通过整合来自癌症论坛的患者报告,详细记录了药物名称、不良反应事件及其严重程度,为研究人员提供了丰富的标注数据。经典使用场景包括利用自然语言处理技术,从非结构化的患者讨论中提取关键药物安全信息,进而生成结构化的摘要,帮助医疗专业人员快速了解特定药物的潜在风险。
解决学术问题
MCADRS数据集解决了癌症药物警戒研究中数据稀缺的核心问题,填补了针对癌症特异性不良反应的系统性标注数据的空白。通过提供多标签标注(如药物名称、不良反应事件、严重程度等),该数据集支持了信息提取与摘要生成任务的联合建模,显著提升了模型在噪声文本(如社交媒体帖子)中的鲁棒性。其学术意义在于推动了跨学科研究,将自然语言处理技术与临床医学需求紧密结合,为个性化癌症治疗提供了数据基础。
衍生相关工作
MCADRS数据集催生了一系列癌症药物警戒领域的创新研究。其衍生的GASCADE框架首次将大语言模型(如T5)与直接偏好优化(DPO)技术结合,为摘要生成任务设定了新基准。后续工作进一步探索了多模态数据整合(如结合电子健康记录)和跨语言迁移学习,扩展了数据集的适用范围。此外,该数据集启发了对不良反应严重程度预测模型的开发,推动了从粗粒度到细粒度药物风险分析的范式转变。
以上内容由遇见数据集搜集并总结生成



