five

ec-raft-dataset

收藏
Hugging Face2025-06-07 更新2025-06-08 收录
下载链接:
https://huggingface.co/datasets/biodatlab/ec-raft-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了结构化的ClinicalTrials.gov数据,用于EC-RAFT框架。它包括结构化的合格标准(包容、排除、年龄、性别)、试验描述、元数据、干预措施和研究设计字段。该数据集被用作论文《EC-RAFT: Automated Generation of Clinical Trial Eligibility Criteria through Retrieval-Augmented Fine-Tuning》的基础数据集。

This dataset provides structured ClinicalTrials.gov data for the EC-RAFT framework. It includes structured eligibility criteria (inclusion, exclusion, age and gender criteria), trial descriptions, metadata, interventions, and study design fields. This dataset serves as the foundational dataset for the paper *EC-RAFT: Automated Generation of Clinical Trial Eligibility Criteria through Retrieval-Augmented Fine-Tuning*.
提供机构:
Biomedical and Data Lab, Mahidol University
创建时间:
2025-05-29
搜集汇总
数据集介绍
main_image_url
构建方式
EC-RAFT数据集基于ClinicalTrials.gov平台的结构化临床试验数据构建,通过系统化提取试验记录中的元数据、干预措施及研究设计信息,形成标准化数据实例。该数据集涵盖213,877条训练样本,26,735条验证与测试样本,每一条记录均包含详细的资格标准(纳入与排除条件)及试验描述,确保数据全面性与一致性。
使用方法
EC-RAFT数据集适用于自然语言处理与临床信息检索任务,用户可通过加载标准数据分割(训练、验证、测试)进行模型训练与评估。每条记录以字符串形式存储数据与标准字段,辅以结构化元数据,支持端到端流程。该数据集为EC-RAFT框架的基础,可用于自动化生成临床试验资格标准等研究。
背景与挑战
背景概述
EC-RAFT数据集由Mahidol University和Ravis Technology的研究团队于2025年构建,旨在支持临床试验资格标准自动生成的前沿研究。该数据集基于ClinicalTrials.gov的原始数据,系统整合了试验描述、结构化元数据及详细的纳入排除标准,为医疗信息抽取与自然语言处理领域提供了重要资源。其核心研究聚焦于通过检索增强微调技术优化临床试验患者筛选流程,显著提升了自动化标准生成的准确性与效率,对推动智能医疗决策系统发展具有深远影响。
当前挑战
该数据集致力于解决临床试验资格标准自动化生成中的语义复杂性与逻辑一致性挑战,其构建过程面临多重困难。原始临床文本包含高度专业术语与嵌套逻辑结构,需精确解析为机器可读格式;同时需保持大规模数据中标准表述的归一化与无歧义性。数据集成阶段需协调多源异构临床试验字段,确保时间戳、研究设计等元数据与标准文本的严格对齐,这对数据清洗与结构化建模提出了极高要求。
常用场景
经典使用场景
在临床研究智能化领域,EC-RAFT数据集作为结构化临床试验数据的典范,主要应用于自动化筛选符合特定医学标准的受试者。研究人员利用该数据集训练自然语言处理模型,精准解析临床试验的纳入与排除标准,从而提升受试者招募的效率和准确性。
解决学术问题
该数据集有效解决了临床研究中标准文本语义解析的学术难题,通过提供大规模标注数据,支持机器学习模型理解复杂医学条件。其意义在于推动医疗信息抽取技术的进步,降低人工筛选成本,并为循证医学研究提供可靠的数据基础。
实际应用
实际应用中,EC-RAFT数据集被整合到智能临床试验匹配系统,协助医院和制药公司快速识别潜在受试者。该系统能自动对比患者病历与试验标准,显著缩短研究周期,同时保障筛选过程的规范性和一致性。
数据集最近研究
最新研究方向
在临床试验智能化设计领域,EC-RAFT数据集正推动检索增强生成技术的创新应用。该数据集通过结构化处理ClinicalTrials.gov的海量试验数据,为自动生成符合医学规范的入选排除标准提供了重要基础。当前研究聚焦于结合大型语言模型与专业医学知识库,开发能够理解复杂临床语境的多模态推理系统。随着FDA数字健康技术指南的更新,这类技术有望显著提升临床试验方案设计的效率与精准度,减少人工编写的主观偏差。相关成果已体现在ACL 2025会议的前沿研究中,标志着自然语言处理技术在医疗文本结构化分析方面取得实质性突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作