clinical-trials-qa

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/Parexel/clinical-trials-qa

下载链接

链接失效反馈

官方服务：

资源简介：

临床试验问答数据集是一个多层级问答基准数据集，旨在评估检索增强生成（RAG）系统在ClinicalTrials.gov提供的临床试验协议上的表现。该数据集包含5,000多个问题-答案对，分为三个难度层级，覆盖四种推理类型的问题。每个问题都配有真实答案和SQL证据支持。数据集结构包括核心字段（如问题ID、问题文本、答案等）、评估字段（如可能答案列表、SQL查询结果等）和元数据字段（如问题类型、问题模板等）。数据分为三个层级（tier_a、tier_b、tier_c），分别对应13、129和1,291个协议的不同规模语料库。数据集适用于RAG系统的基准测试，支持多种评估指标，包括精确匹配准确率、F1分数和ROUGE分数等。数据集的问题通过18个模板自动生成，并经过严格的质量控制，包括空值过滤、自然语言格式转换和重复检测等。数据集仅包含英文内容，且仅限于美国注册的临床试验结构化数据。

创建时间：

2026-03-07

原始信息汇总

临床试验问答数据集概述

数据集基本信息

数据集名称：Clinical Trials QA Dataset
发布者：Parexel
发布日期：2026年
版本：1.0.0
许可证：CC BY 4.0
语言：英语
任务类别：问答
标签：临床试验、RAG基准、医疗、多层级、检索增强生成
数据规模：1K<n<10K

数据集摘要

该数据集提供了一个包含5000多个问答对的多层级基准，用于在来自ClinicalTrials.gov的真实世界临床试验方案文档上评估检索增强生成系统。问题涵盖四种推理类别，并需要从方案PDF中检索信息。

数据集结构

数据实例

每个数据实例包含以下字段：

id：基于SHA256哈希的唯一标识符。
question：自然语言问题。
answer：真实答案。
corpus_size：语料库中的方案数量。
question_type：问题类别。
possible_answers：有效答案选项。
qa_template：用于生成的模板名称。
sql_query：用于可重复性的SQL查询。
sql_response：支持答案的SQL查询结果。
evidence_size：所需证据记录的数量。

问题类别

交叉比较
证据综合
多跳推理
子集推理

数据划分

划分	语料库规模	问题数量	描述
tier_a	13个方案	~1,500	基础检索
tier_b	129个方案	~1,700	高级检索/记忆
tier_c	1,291个方案	~1,700	大规模语料库

数据收集与生成

问题生成

问题使用涵盖4种推理类别的18个模板自动生成：

交叉比较：6个模板
证据综合：6个模板
多跳推理：3个模板
子集推理：3个模板

质量控制

空值过滤
自然格式转换
选择性过滤
重复检测
答案验证

方案抽样

层级A：13个方案的随机样本
层级B：129个方案的分层样本
层级C：1,291个方案的分层样本分层基于研究类型、阶段和研究状态。

预期用途

主要用例

在临床试验数据上对检索增强生成系统进行基准测试。

评估指标

封闭式问题：精确匹配准确率、Top-k准确率
开放式问题：F1分数、ROUGE分数、语义相似度
证据检索：检索精确率/召回率

局限性

问题为模板生成，非人工编写。
所有内容均为英语。
仅限于美国注册的试验。
问题源自结构化字段，而非自由文本。
需要访问方案PDF。

访问方案PDF

方案PDF可在单独的存储库中获取，或直接从ClinicalTrials.gov使用NCT ID下载。

引用

如需在研究中引用此数据集，请使用提供的BibTeX条目。

数据集创建者

由Parexel创建。

搜集汇总

数据集介绍

构建方式

在临床研究领域，评估检索增强生成系统对复杂医学文献的理解能力至关重要。Clinical Trials QA数据集的构建采用了系统化的方法，基于ClinicalTrials.gov的临床试验协议，通过18个预定义模板自动生成了超过5000个问题-答案对。这些模板覆盖了跨比较、证据合成、多跳推理和子集推理四种推理类型，确保了问题的多样性和逻辑深度。为确保数据质量，构建过程实施了严格的质量控制，包括无效值过滤、自然语言格式化以及重复检测，同时通过分层抽样策略从13、129到1291个协议规模中选取样本，形成了三个难度层级，以模拟不同复杂度的检索场景。

使用方法

对于旨在提升医学信息检索与问答能力的研究者而言，该数据集提供了标准化的评估流程。使用者可通过Hugging Face的datasets库便捷加载特定层级或全部数据，并利用内置字段进行灵活筛选，例如按问题类型或回答格式进行分类。在典型评估中，需先将对应的临床试验协议PDF文档导入RAG系统，随后以数据集中的问题作为查询输入，将系统生成的答案与标注的真实答案进行对比。评估指标可根据问题类型灵活选用，对于封闭式问题计算准确率，对于开放式问题则采用F1分数或语义相似度度量，同时还可依据提供的SQL证据验证检索结果的精确性与召回率。

背景与挑战

背景概述

在医学信息学与人工智能交叉领域，临床研究数据的结构化分析与智能问答系统正成为推动精准医疗发展的关键。Clinical Trials QA数据集由Parexel机构于2026年创建，旨在构建一个多层级难度的问答基准，专门用于评估检索增强生成（RAG）系统在临床试验协议文档上的性能。该数据集基于ClinicalTrials.gov的公开协议，通过自动化模板生成了超过五千个涵盖四种推理类型的问题-答案对，并依据语料库规模划分为三个难度层级。其核心研究问题聚焦于如何系统化地衡量RAG模型在复杂医学文本中的信息检索与推理能力，为医疗人工智能的可靠性与可解释性评估提供了重要工具，对临床决策支持系统的研发具有显著的推动作用。

当前挑战

该数据集致力于解决临床试验信息检索与问答领域的核心挑战，即如何从大规模、非结构化的协议文档中准确提取并合成复杂医学信息。具体挑战包括：处理多跳推理问题，要求系统串联多个证据片段进行逻辑推断；应对证据合成任务，需从数百份协议中聚合统计信息并排名；以及完成子集推理，涉及集合操作与交叉验证。在构建过程中，面临自动化生成问题时需确保语义自然性与临床准确性，同时通过分层抽样保证协议的代表性，并设计严格的质量控制流程以过滤无效答案与重复问题，这些步骤均对数据集的可靠性与实用性构成了实质性考验。

常用场景

经典使用场景

在生物医学信息学领域，临床研究数据的结构化检索与问答一直是推动精准医疗发展的关键环节。Clinical Trials QA数据集通过构建一个多层级、多推理类型的问答基准，为评估检索增强生成系统在真实临床试验协议文档上的性能提供了标准化测试平台。该数据集的核心应用场景在于系统性地衡量RAG模型从大规模临床协议PDF中提取、整合并生成准确答案的能力，尤其侧重于不同检索难度下的表现差异，从而为优化医疗信息检索系统奠定实证基础。

解决学术问题

该数据集有效应对了医疗自然语言处理中若干核心挑战，包括如何在大规模、多源异构的临床文档中实现精准信息定位，以及如何支持复杂的多跳推理与证据合成。通过提供分层级的语料规模与多样化的问答模板，它使得研究者能够量化分析RAG系统在应对不同复杂度查询时的性能边界，进而推动检索算法、知识融合与生成模型在专业垂直领域的协同优化，对提升临床决策支持系统的可靠性与可解释性具有显著学术价值。

实际应用

在现实医疗场景中，该数据集可直接服务于临床研究效率的提升。例如，医药研发人员能够利用基于此数据集优化的RAG系统，快速从数千份临床试验协议中汇总特定干预措施的效果趋势、受试者人群特征或试验阶段分布，从而加速研究设计、竞品分析或证据合成。此外，它也为医疗信息平台构建智能问答助手提供了训练与评估基准，助力实现从海量法规文档中即时提取关键信息的自动化流程。

数据集最近研究