medalpaca/medical_meadow_wikidoc_patient_information

Name: medalpaca/medical_meadow_wikidoc_patient_information
Creator: medalpaca
Published: 2023-04-06 17:08:53
License: 暂无描述

Hugging Face2023-04-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/medalpaca/medical_meadow_wikidoc_patient_information

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc task_categories: - question-answering language: - en --- # Dataset Card for WikiDoc For the dataset containing rephrased content from the living textbook refer to [this dataset](https://huggingface.co/datasets/medalpaca/medical_meadow_wikidoc) ## Dataset Description - **Source:** https://www.wikidoc.org/index.php/Main_Page - **Repository:** https://github.com/kbressem/medalpaca - **Paper:** TBA ### Dataset Summary This dataset containes medical question-answer pairs extracted from [WikiDoc](https://www.wikidoc.org/index.php/Main_Page), a collaborative platform for medical professionals to share and contribute to up-to-date medical knowledge. The platform has to main subsites, the "Living Textbook" and "Patient Information". The "Living Textbook" contains chapters for various medical specialties, which we crawled. We then used GTP-3.5-Turbo to rephrase the paragraph heading to a question and used the paragraph as answer. Patient Information is structured differently, in that each section subheading is already a question, making rephrasing them obsolete. **Note:** This dataset is still a WIP. While the Q/A pairs from the patient information seems to be mostly correct, the conversion using GPT-3.5-Turbo yielded some unsatisfactory results in approximately 30% of cases. We are in the process of cleaning this dataset. ### Citation Information TBA

提供机构：

medalpaca

原始信息汇总

数据集概述：WikiDoc

数据集描述

来源

源网站： WikiDoc
类型： 医学问答对
内容： 从WikiDoc平台提取，该平台是医学专业人士共享和贡献最新医学知识的协作平台。

数据集详情

任务类别： 问答
语言： 英语
数据处理： 使用GPT-3.5-Turbo将段落标题重构为问题，段落内容作为答案。对于“患者信息”部分，由于每个小节标题已经是问题形式，无需重新构造。
当前状态： 数据集仍在进行中，约30%的转换结果不尽人意，正在进行数据清洗。

引用信息

论文： 待定
许可证： CC

搜集汇总

数据集介绍

构建方式

在医学信息学领域，构建高质量的数据集对于推动自然语言处理技术的发展至关重要。该数据集源自WikiDoc这一面向医疗专业人士的协作平台，其内容主要提取自“患者信息”板块。由于该板块的章节标题本身已具备问题形式，无需借助语言模型进行重构，从而确保了问题的原始性与专业性。数据采集过程通过自动化爬虫技术实现，直接从WikiDoc网站抓取结构化内容，形成了问答对的基本框架。

特点

该数据集的核心特点在于其专注于医学患者教育领域，提供了大量以患者为中心的医学问答对。内容覆盖广泛的医疗专科，确保了信息的全面性与时效性。数据集中问题直接来源于WikiDoc的章节标题，保留了医学专业术语的准确性，而答案部分则对应详细的解释性段落，形成了清晰的知识对应关系。值得注意的是，数据集目前仍处于优化阶段，部分内容可能存在需要进一步清理的情况，这反映了构建过程中对数据质量的持续关注。

使用方法

在医学自然语言处理研究中，该数据集可作为训练或评估问答系统的重要资源。研究者可直接加载数据集进行模型微调，适用于医疗咨询、患者教育等下游任务。使用时应关注数据集的原始英文语境，结合预处理步骤以适配特定模型架构。鉴于数据集尚在完善中，建议在使用过程中进行必要的数据清洗与验证，以确保研究结果的可靠性。该数据集的开源特性也支持社区共同参与改进，促进医学人工智能领域的协作发展。

背景与挑战

背景概述

在医学信息学领域，高质量、结构化的医学问答数据对于训练和评估自然语言处理模型至关重要。MedAlpaca团队于2023年创建的WikiDoc数据集，源自WikiDoc这一由医学专业人士维护的协作平台，旨在构建一个涵盖广泛医学专业知识的问答对资源。该数据集的核心研究问题聚焦于如何将平台中的医学文本，特别是患者信息部分，转化为可用于模型训练的标准化问答格式，以支持医学对话系统、知识检索等应用，对推动医疗人工智能的发展具有显著影响力。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，医学问答任务要求模型具备高准确性和可靠性，以应对复杂的医学术语、多样化的临床表现及不断更新的医学知识，确保生成的回答符合临床标准；在构建过程中，尽管患者信息部分的结构化问题简化了处理，但利用GPT-3.5-Turbo对部分内容进行重述时，约30%的案例产生了不理想的结果，这涉及语义偏差、信息冗余或错误生成等问题，需要进一步的数据清洗和人工校验来提升质量。

常用场景

经典使用场景

在医学信息处理领域，该数据集作为问答对资源，为医疗自然语言理解任务提供了结构化支持。其经典使用场景集中于训练和评估医疗问答系统，通过从WikiDoc平台提取的患者信息内容，构建了以患者为中心的医学知识查询与响应框架，助力模型学习从临床术语到通俗解释的映射关系。

实际应用

在实际医疗环境中，该数据集可应用于开发智能患者辅助工具，如自动化症状查询系统或个性化健康信息推送平台。通过集成到临床决策支持或远程医疗系统中，它能帮助患者获取准确、易懂的医学知识，减轻医护人员负担，并提升公共卫生服务的效率与覆盖面。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于医疗问答对的预训练语言模型优化、患者导向的文本生成技术改进，以及跨语言医疗知识迁移学习框架。这些工作进一步拓展了数据集在医学人工智能领域的应用边界，为后续的学术探索与技术创新奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集