ec-raft-dataset

Name: ec-raft-dataset
Creator: Biomedical and Data Lab, Mahidol University
Published: 2025-06-07 15:07:18
License: 暂无描述

Hugging Face2025-06-07 更新2025-06-08 收录

下载链接：

https://huggingface.co/datasets/biodatlab/ec-raft-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了结构化的ClinicalTrials.gov数据，用于EC-RAFT框架。它包括结构化的合格标准（包容、排除、年龄、性别）、试验描述、元数据、干预措施和研究设计字段。该数据集被用作论文《EC-RAFT: Automated Generation of Clinical Trial Eligibility Criteria through Retrieval-Augmented Fine-Tuning》的基础数据集。

This dataset provides structured ClinicalTrials.gov data for the EC-RAFT framework. It includes structured eligibility criteria (inclusion, exclusion, age and gender criteria), trial descriptions, metadata, interventions, and study design fields. This dataset serves as the foundational dataset for the paper *EC-RAFT: Automated Generation of Clinical Trial Eligibility Criteria through Retrieval-Augmented Fine-Tuning*.

提供机构：

Biomedical and Data Lab, Mahidol University

创建时间：

2025-05-29

搜集汇总

数据集介绍

构建方式

EC-RAFT数据集基于ClinicalTrials.gov平台的结构化临床试验数据构建，通过系统化提取试验记录中的元数据、干预措施及研究设计信息，形成标准化数据实例。该数据集涵盖213,877条训练样本，26,735条验证与测试样本，每一条记录均包含详细的资格标准（纳入与排除条件）及试验描述，确保数据全面性与一致性。

使用方法

EC-RAFT数据集适用于自然语言处理与临床信息检索任务，用户可通过加载标准数据分割（训练、验证、测试）进行模型训练与评估。每条记录以字符串形式存储数据与标准字段，辅以结构化元数据，支持端到端流程。该数据集为EC-RAFT框架的基础，可用于自动化生成临床试验资格标准等研究。

背景与挑战

背景概述

EC-RAFT数据集由Mahidol University和Ravis Technology的研究团队于2025年构建，旨在支持临床试验资格标准自动生成的前沿研究。该数据集基于ClinicalTrials.gov的原始数据，系统整合了试验描述、结构化元数据及详细的纳入排除标准，为医疗信息抽取与自然语言处理领域提供了重要资源。其核心研究聚焦于通过检索增强微调技术优化临床试验患者筛选流程，显著提升了自动化标准生成的准确性与效率，对推动智能医疗决策系统发展具有深远影响。

当前挑战

该数据集致力于解决临床试验资格标准自动化生成中的语义复杂性与逻辑一致性挑战，其构建过程面临多重困难。原始临床文本包含高度专业术语与嵌套逻辑结构，需精确解析为机器可读格式；同时需保持大规模数据中标准表述的归一化与无歧义性。数据集成阶段需协调多源异构临床试验字段，确保时间戳、研究设计等元数据与标准文本的严格对齐，这对数据清洗与结构化建模提出了极高要求。

常用场景

经典使用场景

在临床研究智能化领域，EC-RAFT数据集作为结构化临床试验数据的典范，主要应用于自动化筛选符合特定医学标准的受试者。研究人员利用该数据集训练自然语言处理模型，精准解析临床试验的纳入与排除标准，从而提升受试者招募的效率和准确性。

解决学术问题

该数据集有效解决了临床研究中标准文本语义解析的学术难题，通过提供大规模标注数据，支持机器学习模型理解复杂医学条件。其意义在于推动医疗信息抽取技术的进步，降低人工筛选成本，并为循证医学研究提供可靠的数据基础。

实际应用

实际应用中，EC-RAFT数据集被整合到智能临床试验匹配系统，协助医院和制药公司快速识别潜在受试者。该系统能自动对比患者病历与试验标准，显著缩短研究周期，同时保障筛选过程的规范性和一致性。

数据集最近研究