medalpaca/medical_meadow_wikidoc

Name: medalpaca/medical_meadow_wikidoc
Creator: medalpaca
Published: 2023-04-06 17:05:18
License: 暂无描述

Hugging Face2023-04-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/medalpaca/medical_meadow_wikidoc

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc task_categories: - question-answering language: - en --- # Dataset Card for WikiDoc For the dataset containing patient information from wikidoc refer to [this dataset](https://huggingface.co/datasets/medalpaca/medical_meadow_wikidoc_patient_information) ## Dataset Description - **Source:** https://www.wikidoc.org/index.php/Main_Page - **Repository:** https://github.com/kbressem/medalpaca - **Paper:** TBA ### Dataset Summary This dataset containes medical question-answer pairs extracted from [WikiDoc](https://www.wikidoc.org/index.php/Main_Page), a collaborative platform for medical professionals to share and contribute to up-to-date medical knowledge. The platform has to main subsites, the "Living Textbook" and "Patient Information". The "Living Textbook" contains chapters for various medical specialties, which we crawled. We then used GTP-3.5-Turbo to rephrase the paragraph heading to a question and used the paragraph as answer. Patient Information is structured differently, in that each section subheading is already a question, making rephrasing them obsolete. **Note:** This dataset is still a WIP. While the Q/A pairs from the patient information seems to be mostly correct, the conversion using GPT-3.5-Turbo yielded some unsatisfactory results in approximately 30% of cases. We are in the process of cleaning this dataset. ### Citation Information TBA

提供机构：

medalpaca

原始信息汇总

数据集概述

数据集名称

WikiDoc

数据集描述

来源： WikiDoc
类型： 医学问答数据集
内容： 包含从WikiDoc平台提取的医学问答对。该平台是一个协作平台，供医学专业人士分享和贡献最新的医学知识。数据集主要包含两部分内容：
- Living Textbook： 包含各种医学专业的章节，使用GPT-3.5-Turbo将段落标题改写为问题，段落内容作为答案。
- Patient Information： 每个小节的标题已经是问题，无需改写。

数据集状态

当前状态： 正在进行中（WIP）
问题： 约30%的问答对转换结果不尽人意，正在进行数据清洗。

数据集使用许可

许可： cc

数据集语言

语言： 英语

数据集任务类别

任务类别： 问答

搜集汇总

数据集介绍

构建方式

在医学知识共享领域，WikiDoc作为一个面向医疗专业人员的协作平台，整合了涵盖多专科的“Living Textbook”与“Patient Information”两大板块。本数据集基于此平台构建，通过爬取Living Textbook中各章节内容，利用GPT-3.5-Turbo模型将段落标题改写为问题，并将对应段落作为答案，从而生成问答对。对于Patient Information部分，因其子标题本身已构成问题形式，故无需改写，直接提取即可。该过程旨在将结构化的医学文本转化为可用于指令微调的问答数据集。

特点

该数据集聚焦于医学问答任务，具有明确的专业性和领域针对性。其内容源自权威协作平台WikiDoc，覆盖多种医学专科知识，保证了信息的可靠性与广度。数据构建采用半自动方式，结合GPT-3.5-Turbo进行问题改写，提升了问答对生成的效率。然而，部分由模型生成的问答对质量参差不齐，约30%的样本存在不理想结果，体现了当前版本作为工作进展的过渡特性。Patient Information子集因原始结构天然适配问答形式，质量相对更优。

使用方法

本数据集适用于医学领域的问答系统训练与评估，尤其适合用于指令微调（instruction tuning）场景。使用时，可直接加载Hugging Face上的medalpaca/medical_meadow_wikidoc数据集，将其中的问题和答案字段作为输入输出对。建议在应用前对GPT-3.5-Turbo生成的样本进行人工或自动筛选，以剔除约30%的质量不佳样本。数据集以英文呈现，适合用于构建面向医学知识检索的对话模型或作为预训练语料的补充。

背景与挑战

背景概述

在自然语言处理与医学交叉领域，高质量问答数据的稀缺性长期制约着临床决策支持系统的发展。medalpaca/medical_meadow_wikidoc数据集由德国慕尼黑工业大学等机构的研究团队于2023年创建，旨在利用结构化医学知识库构建大规模医学问答对。该数据集从WikiDoc这一协作式医学知识平台抓取内容，涵盖“活教材”与“患者信息”两大子站点，前者通过GPT-3.5-Turbo将章节标题改写为问题形式，后者则直接利用原有的问答结构。这一数据集为医学大语言模型的微调与评估提供了重要资源，推动了医学领域对话系统与知识检索能力的提升。

当前挑战

当前数据集面临的核心挑战体现在两个层面：从领域问题看，医学问答对的高精度要求与模型生成内容的可靠性之间存在矛盾，GPT-3.5-Turbo改写产生约30%的不满意结果，导致噪声数据可能误导模型学习；从构建过程看，WikiDoc“活教材”子站点的非标准化章节结构增加了自动化处理的难度，而“患者信息”子站点的问答对虽结构清晰，但需人工校验以排除歧义。此外，数据集的持续维护与清洗工作尚未完成，版本迭代中的质量控制机制仍需完善，以确保其作为基准数据的可信度与实用性。

常用场景

经典使用场景

在医学自然语言处理领域，medalpaca/medical_meadow_wikidoc数据集以WikiDoc这一权威医学协作平台为根基，通过结构化抽取与GPT-3.5-Turbo的语义重构，构建了涵盖“Living Textbook”与“Patient Information”两大子站的医学问答对。其经典使用场景聚焦于训练和评估医学领域的检索增强生成（RAG）系统与指令微调模型，研究者可借此提升模型对专业医学概念的解析能力，尤其在处理症状、诊断与治疗方案等复杂临床知识时，该数据集为模型提供了高质量、多源化的语义对齐样本。

解决学术问题

该数据集的构建有效回应了医学问答系统中知识来源碎片化与语义鸿沟的学术难题。传统医学语料库常受限于单一来源或非结构化文本，而WikiDoc的“Living Textbook”部分经GPT重述后，将专业段落标题转化为自然问句，弥合了医学文献与临床提问间的表达差异。同时，“Patient Information”子站天然包含问答结构，避免了人工标注的主观偏差。这一设计为低资源医学场景下的少样本学习、跨领域迁移学习提供了可靠基准，推动了医学知识图谱与对话系统研究向更严谨、更可解释的方向演进。

衍生相关工作

围绕该数据集已衍生出一系列具有影响力的工作，例如MedAlpaca系列模型通过在此数据上联合其他医学语料进行指令微调，显著提升了LLaMA等基础模型在医学问答基准（如MedQA、PubMedQA）上的表现。另有研究基于该数据集探索了医学领域事实性与幻觉检测技术，通过对比GPT生成答案与原始WikiDoc文本的一致性，构建了评估大模型医学可靠性的评测框架。此外，部分工作将其作为多模态医学推理的文本锚点，结合影像数据训练跨模态诊断系统，拓展了医学AI的协同学习范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集