MedRAG/statpearls

Name: MedRAG/statpearls
Creator: MedRAG
Published: 2024-02-23 02:52:56
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MedRAG/statpearls

下载链接

链接失效反馈

官方服务：

资源简介：

该HuggingFace数据集包含了用于MedRAG的StatPearls语料库信息，适用于医学检索增强生成（RAG）。StatPearls是一个类似于UpToDate的临床决策支持工具，数据集通过NCBI Bookshelf获取了9,330篇公开的StatPearls文章，并根据文章的层次结构进行分块处理，每个段落被视为一个片段，所有相关的层次标题拼接为相应的标题。分块后的语料库包含301,202个片段，平均每个片段有119个词。每个片段包括唯一标识符、标题、内容和标题与内容的拼接。

提供机构：

MedRAG

原始信息汇总

The StatPearls Corpus in MedRAG

数据集详情

数据集描述

StatPearls 是一个类似于 UpToDate 的临床决策支持工具。我们使用 NCBI Bookshelf 提供的 9,330 篇公开的 StatPearl 文章来构建 StatPearls 语料库。我们根据文章的层次结构对 StatPearls 进行了分块处理，将每篇文章中的每个段落视为一个片段，并将所有相关的层次标题拼接为相应的标题。我们的分块语料库包含 301,202 个片段，平均每个片段包含 119 个词。

数据集结构

每行是一个 StatPearls 的片段，包含以下特征：

id: 片段的唯一标识符
title: 片段所属的 StatPearl 文章的标题和子标题
content: 片段的内容
contents: title 和 content 的拼接，将由 BM25 检索器使用

使用方法

直接使用

shell git clone https://github.com/Teddy-XiongGZ/MedRAG.git cd MedRAG

wget https://ftp.ncbi.nlm.nih.gov/pub/litarch/3d/12/statpearls_NBK430685.tar.gz -P ./corpus/statpearls tar -xzvf ./corpus/statpearls/statpearls_NBK430685.tar.gz -C ./corpus/statpearls python src/data/statpearls.py

在 MedRAG 中使用

python

from src.medrag import MedRAG

question = "A lesion causing compression of the facial nerve at the stylomastoid foramen will cause ipsilateral" options = { "A": "paralysis of the facial muscles.", "B": "paralysis of the facial muscles and loss of taste.", "C": "paralysis of the facial muscles, loss of taste and lacrimation.", "D": "paralysis of the facial muscles, loss of taste, lacrimation and decreased salivation." }

medrag = MedRAG(llm_name="OpenAI/gpt-3.5-turbo-16k", rag=True, retriever_name="MedCPT", corpus_name="StatPearls") answer, snippets, scores = medrag.answer(question=question, options=options, k=32) # scores are given by the retrieval system

引用

shell @article{xiong2024benchmarking, title={Benchmarking Retrieval-Augmented Generation for Medicine}, author={Guangzhi Xiong and Qiao Jin and Zhiyong Lu and Aidong Zhang}, journal={arXiv preprint arXiv:2402.13178}, year={2024} }

搜集汇总

数据集介绍

构建方式

MedRAG/statpearls数据集的构建，是基于StatPearls这一临床决策支持工具中的公开文章。通过对9,330篇公开的StatPearls文章进行段落切分，将每篇文章的每个段落视为一个片段，并将相关的层级标题拼接为对应的标题，从而构建了一个包含301,202个片段的语料库，平均每个片段包含119个token。

特点

该数据集的特点在于，它专门用于医学领域的检索增强生成（RAG）。数据集遵循StatPearls的隐私政策，不直接分发内容，而是提供指引至NCBI Bookshelf下载原始数据，并使用提供的代码进行片段化处理。此外，数据集的结构包括唯一的片段标识符、标题、内容以及标题和内容的组合，后者供BM25检索器使用。

使用方法

MedRAG/statpearls数据集的使用分为直接使用和在MedRAG系统中的使用。直接使用时，用户需从NCBI Bookshelf下载原始数据，并利用提供的Python脚本来处理数据。在MedRAG系统中使用时，用户可以通过MedRAG类的实例来对问题进行回答，系统会根据提供的问题和选项，使用检索系统获取相关片段，并基于这些片段生成答案。

背景与挑战

背景概述

MedRAG/statpearls数据集源于MedRAG项目，旨在为医学领域提供一种检索增强生成（Retrieval-Augmented Generation, RAG）的解决方案。该数据集以StatPearls文库为基础，StatPearls是一个类似于UpToDate的临床决策支持工具，提供了9330篇公开可用的文章，这些文章经过分块处理，形成了包含301,202个片段的数据集，每个片段平均包含119个标记。MedRAG/statpearls数据集的创建，为医学信息检索与自动问答系统的研究提供了重要资源，对于推动医学自然语言处理技术的发展具有显著影响。该数据集的研究始于2024年，由Guangzhi Xiong、Qiao Jin、Zhiyong Lu和Aidong Zhang等研究人员共同完成，并在arXiv预印本上发表了相关研究论文。

当前挑战

在构建MedRAG/statpearls数据集的过程中，研究者面临了诸多挑战。首先，数据集的构建需遵循StatPearls的隐私政策，不能直接分发内容，研究者需从NCBI Bookshelf下载原始数据，并使用特定的代码进行处理。其次，数据集的构建过程中，如何有效地将文章分块并提取相关信息，以适应检索增强生成的需求，也是一项技术挑战。此外，数据集在实际应用中，如何确保检索的准确性和生成内容的医学准确性，也是当前和未来研究需要解决的问题。

常用场景

经典使用场景

在医学信息检索与增强生成领域，MedRAG/statpearls数据集的应用可谓至关重要。该数据集被广泛用于构建医学问答系统，通过对大量医学文献的细粒度处理，为生成准确、高质量的医学回答提供了基础。

解决学术问题

MedRAG/statpearls数据集解决了传统医学信息检索系统中准确性和全面性不足的问题。它通过结合检索增强生成技术，有效提高了医学问答的准确度和效率，对于提升医学决策支持工具的性能具有重要意义。

衍生相关工作

基于MedRAG/statpearls数据集，研究者们已衍生出一系列相关工作，包括但不限于构建更为先进的医学问答模型、开发新的医学信息检索算法，以及探索医学知识图谱的构建与应用，这些研究进一步推动了医学信息学的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集