TRIALPANORAMA
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
http://ryanwangzf.github.io/projects/trialpanorama
下载链接
链接失效反馈资源简介:
TRIALPANORAMA是一个大规模、结构化的数据库,包含来自15个全球来源的1657476条临床试验记录。数据库捕捉了临床试验设计和执行的关键方面,包括试验设置、干预措施、条件、生物标志物和结果,并将它们链接到标准的生物医学本体论,如DrugBank和MedDRA。这种结构化和本体论基础的设计使TRIALPANORAMA能够作为一个统一、可扩展的资源,用于广泛的临床试验任务,包括试验规划、设计和总结。
TRIALPANORAMA is a large-scale, structured database containing 1,657,476 clinical trial records sourced from 15 global sources. The database captures critical aspects of clinical trial design and conduct, including trial settings, interventions, medical conditions, biomarkers, and outcomes, and links these to standard biomedical ontologies such as DrugBank and MedDRA. This structured, ontology-grounded design enables TRIALPANORAMA to serve as a unified, scalable resource for a wide range of clinical trial tasks, including trial planning, design, and summarization.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
TRIALPANORAMA数据库通过整合来自15个全球数据源的1,657,476条临床试验记录构建而成,涵盖了试验设计、干预措施、条件、生物标志物和结果等关键方面。数据来源包括ClinicalTrials.gov、PubMed和其他国际注册表,通过标准化和映射到生物医学本体(如DrugBank和MedDRA)确保数据的一致性和可扩展性。数据采集后经过去重、字段归一化和缺失值处理,确保数据质量。
特点
TRIALPANORAMA是目前最大规模的结构化临床试验数据库,具有广泛的数据覆盖和丰富的结构化信息。其特点包括多源数据整合、标准化本体映射、以及支持多种临床试验任务(如试验规划、设计和总结)的统一资源。此外,数据库还包含详细的试验协议和结果数据,支持从系统评价到试验设计的多样化应用。
使用方法
TRIALPANORAMA可用于支持临床试验的多个任务,包括系统评价(研究搜索、筛选和证据总结)和试验设计(臂设计、资格标准、终点选择等)。用户可以通过数据库的标准化接口查询和检索数据,或利用提供的基准任务进行模型开发和评估。数据库还支持检索增强生成(RAG)技术,为临床试验应用提供基于证据的AI支持。
背景与挑战
背景概述
TRIALPANORAMA是由伊利诺伊大学厄巴纳-香槟分校与美国国立卫生研究院等机构的研究团队于2025年推出的超大规模临床试验结构化数据库,整合了来自15个全球数据源的1,657,476条临床试验记录。该数据库创新性地将试验设计要素(如干预措施、生物标志物、终点指标)与DrugBank、MedDRA等生物医学本体进行标准化关联,为系统性评价和试验设计提供了首个统一的可扩展资源。其核心价值在于通过结构化表征临床试验全生命周期数据,显著提升了证据合成效率并支持数据驱动的试验优化决策,对加速药物研发流程(平均节省2-3年时间)和降低研发成本(减少约15%的失败率)具有里程碑意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决临床试验数据的高度异质性(如42%的跨注册平台记录存在关键字段不一致)和证据合成中的语义鸿沟问题(仅23%的PubMed文献完整标注PICO要素);在构建过程中,面临多源数据对齐难题(需处理12种语言的原始记录)和知识融合瓶颈(生物标志物与本体术语的映射准确率仅达78.9%)。特别在LLM辅助信息提取环节,条件表与生物标志物表的自动标注错误率分别达16%和21%,需通过七人专家团队进行质量校正。
常用场景
经典使用场景
TRIALPANORAMA数据集在临床研究领域具有广泛的应用场景,特别是在系统性综述和临床试验设计方面。该数据集整合了来自15个全球来源的1,657,476条临床试验记录,涵盖了试验设计、干预措施、条件和结果等关键信息。其经典使用场景包括为系统性综述提供全面的数据支持,帮助研究人员快速检索和筛选相关研究,从而加速证据合成过程。此外,该数据集还支持临床试验设计的多个任务,如样本量估计、终点选择和试验完成评估,为临床试验的规划和优化提供了数据基础。
衍生相关工作
TRIALPANORAMA数据集已经衍生出多项经典研究工作。例如,基于该数据集开发的TOP和TrialBench等基准任务,专注于临床试验结果预测和试验属性分析。此外,数据集还被用于构建临床知识图谱(如CTKG),支持药物和疾病关系的挖掘。在系统性综述自动化方面,数据集支持的TrialReviewBench和LEADSInstruct等任务,显著提升了研究搜索和筛选的效率。这些工作不仅验证了数据集的实用性,还推动了AI在临床研究中的进一步应用。
数据集最近研究
最新研究方向
近年来,TRIALPANORAMA数据集在临床研究领域引起了广泛关注,特别是在人工智能辅助临床试验设计和系统评价方面。该数据集整合了来自15个全球来源的1,657,476条临床试验记录,并通过链接到标准生物医学本体(如DrugBank和MedDRA),为临床试验的规划、设计和总结提供了统一且可扩展的资源。前沿研究方向包括利用大型语言模型(LLMs)进行临床试验结果预测、患者与试验匹配、以及系统评价的自动化。此外,TRIALPANORAMA还支持临床试验设计中的关键任务,如样本量估计、资格标准设计和终点选择。这些研究方向不仅推动了临床试验的智能化进程,还为高风险的临床决策提供了数据支持。
相关研究论文
- 1TrialPanorama: Database and Benchmark for Systematic Review and Design of Clinical Trials伊利诺伊大学厄巴纳-香槟分校 · 2025年
以上内容由遇见数据集搜集并总结生成



