HPAI-BSC/pubmedqa-cot

Name: HPAI-BSC/pubmedqa-cot
Creator: HPAI-BSC
Published: 2024-05-14 08:53:54
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/HPAI-BSC/pubmedqa-cot

下载链接

链接失效反馈

官方服务：

资源简介：

为了提升PubMedQA数据集训练分割中的回答质量，我们利用Mixtral-8x7B模型生成Chain of Thought（CoT）答案。我们为数据集创建了一个自定义提示，并手工制作了一些示例。对于多选题，我们要求模型重新表述并解释问题，然后解释每个选项与问题的关系，最后总结这些解释以得出最终答案。在此合成数据生成过程中，模型还会被提供解决方案和参考答案。如果模型未能生成正确的响应，我们会重新生成解决方案，直到生成正确的响应为止。更多细节可在论文中找到。

提供机构：

HPAI-BSC

原始信息汇总

数据集概述

基本信息

数据集名称： pubmedqa-cot
许可证： Apache 2.0
语言： 英语
标签： 医学、生物学
大小分类： 100K<n<1M
任务分类： 多项选择、问答

数据集描述

该数据集通过使用Mixtral-8x7B生成链式思考（CoT）答案，增强了PubMedQA数据集的训练分割的答案质量。数据集创建了自定义提示和手工制作的少量示例，用于多选答案。模型在生成过程中还会得到解决方案和参考答案，对于未能生成正确响应的情况，会重新生成解决方案直至得到正确响应。

数据集来源

论文： Aloe: A Family of Fine-tuned Open Healthcare LLMs

数据集创建

创建理由： 提供一个基于pubmedqa的高质量、易于使用的指令调优数据集。

引用信息

BibTeX：

@misc{gururajan2024aloe, title={Aloe: A Family of Fine-tuned Open Healthcare LLMs}, author={Ashwin Kumar Gururajan and others}, year={2024}, eprint={2405.01886}, archivePrefix={arXiv}, primaryClass={cs.CL} } @inproceedings{jin2019pubmedqa, title={PubMedQA: A Dataset for Biomedical Research Question Answering}, author={Jin, Qiao and others}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={2567--2577}, year={2019} }

搜集汇总

数据集介绍

构建方式

在生物医学信息检索领域，高质量的问答数据集对于模型训练至关重要。pubmedqa-cot数据集的构建，以PubMedQA原始数据为基础，通过引入Mixtral-8x7B大语言模型生成思维链（Chain of Thought）答案，从而提升回答的深度与解释性。构建过程中设计了定制化的提示模板，并辅以精心挑选的少样本示例，引导模型对问题进行重述与解析，逐一评估各个选项，最终综合推理得出答案。为确保数据质量，当模型生成无效响应时，系统会进行迭代再生，直至产生符合要求的输出，这一流程显著增强了数据集的可靠性与教育价值。

特点

该数据集在生物医学自然语言处理任务中展现出独特优势，其核心特点在于融合了思维链推理机制，为每个问题提供了逐步推演的解释过程，而非简单的答案标签。这种结构不仅包含了最终的多选答案，还详细阐述了推理路径，有助于模型学习复杂的逻辑分析与知识整合能力。数据集完全采用英文构建，覆盖广泛的医学与生物学主题，规模适中，适用于指令微调与问答系统开发。其合成增强的响应经过严格的质量控制，确保了内容的准确性与一致性，为医疗健康领域的大语言模型训练提供了高质量、易于使用的资源。

使用方法

在医疗人工智能的研究与应用中，pubmedqa-cot数据集主要用于指令微调与模型评估。研究人员可直接加载该数据集，利用其思维链格式的问答对，训练或优化大语言模型在生物医学领域的推理与解释能力。使用时应遵循数据集的Apache 2.0许可协议，确保合规使用。典型的应用流程包括将问题与生成的思维链答案作为输入输出对，进行监督式学习，以提升模型在复杂医学问题上的表现。此外，数据集也可作为基准测试工具，评估模型在医疗问答任务中的准确性与可解释性，推动领域内技术的进步与创新。

背景与挑战

背景概述

在生物医学信息检索领域，高质量问答数据集的构建对于推动自然语言处理技术在专业领域的应用至关重要。PubMedQA数据集于2019年由卡内基梅隆大学等机构的研究团队创建，专注于从PubMed生物医学文献摘要中提取问题与答案，旨在解决医学研究问题自动回答这一核心难题。该数据集通过专家标注的“是/否/也许”答案及其依据，显著提升了模型在生物医学领域的推理能力，为后续的医疗人工智能研究奠定了坚实基础。2024年，HPAI-BSC团队进一步利用Mixtral-8x7B模型生成思维链增强数据，创建了pubmedqa-cot数据集，通过合成解释性文本强化了答案的逻辑连贯性与可解释性，为医疗大型语言模型的指令微调提供了优质资源。

当前挑战

pubmedqa-cot数据集面临的挑战主要体现在两个方面：其一，在解决生物医学问答任务时，模型需克服专业术语密集、逻辑推理复杂以及答案不确定性高等领域特有难题，确保生成的思维链既符合医学知识又具备严谨的因果关联；其二，在数据构建过程中，合成增强环节依赖大语言模型自动生成解释文本，需反复校验以规避模型重复输入或逻辑谬误，同时保持与原始答案的一致性，这要求精细的提示工程与迭代优化策略来保障数据质量与可靠性。

常用场景

经典使用场景

在生物医学自然语言处理领域，pubmedqa-cot数据集为大型语言模型的指令微调提供了高质量的基准资源。该数据集通过引入思维链推理机制，将PubMedQA原始问题转化为包含详细解释步骤的增强型回答，从而模拟了专业医学文献检索与分析的逻辑过程。研究人员通常利用该数据集训练模型在复杂医学语境下进行多轮推理，提升模型对生物医学术语和临床证据的理解能力，为自动化医学问答系统的开发奠定基础。

解决学术问题

该数据集有效解决了生物医学文本理解中语义鸿沟与推理链条缺失的核心难题。传统医学问答系统往往受限于对专业文献的浅层匹配，而pubmedqa-cot通过合成化的思维链标注，为模型提供了从问题解析、选项评估到结论推导的完整认知路径。这不仅显著提升了模型在医学多选题任务上的准确率，更为可解释性人工智能在医疗领域的应用提供了可量化的评估框架，推动了医疗自然语言处理向深度推理范式转变。

衍生相关工作

以该数据集为基础衍生的经典研究包括Aloe系列医疗大模型，该工作系统验证了思维链增强数据对专业领域模型性能的增益效应。后续研究进一步拓展了其在多模态医学推理、跨语言医疗问答等方向的迁移应用，例如将CoT机制与医学图像描述生成相结合的工作。这些衍生成果共同构成了医疗人工智能从感知智能向认知智能演进的重要技术脉络，持续推动着可解释医疗AI方法论的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集