five

MedRAG/statpearls

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MedRAG/statpearls
下载链接
链接失效反馈
官方服务:
资源简介:
该HuggingFace数据集包含了用于MedRAG的StatPearls语料库信息,适用于医学检索增强生成(RAG)。StatPearls是一个类似于UpToDate的临床决策支持工具,数据集通过NCBI Bookshelf获取了9,330篇公开的StatPearls文章,并根据文章的层次结构进行分块处理,每个段落被视为一个片段,所有相关的层次标题拼接为相应的标题。分块后的语料库包含301,202个片段,平均每个片段有119个词。每个片段包括唯一标识符、标题、内容和标题与内容的拼接。

该HuggingFace数据集包含了用于MedRAG的StatPearls语料库信息,适用于医学检索增强生成(RAG)。StatPearls是一个类似于UpToDate的临床决策支持工具,数据集通过NCBI Bookshelf获取了9,330篇公开的StatPearls文章,并根据文章的层次结构进行分块处理,每个段落被视为一个片段,所有相关的层次标题拼接为相应的标题。分块后的语料库包含301,202个片段,平均每个片段有119个词。每个片段包括唯一标识符、标题、内容和标题与内容的拼接。
提供机构:
MedRAG
原始信息汇总

The StatPearls Corpus in MedRAG

数据集详情

数据集描述

StatPearls 是一个类似于 UpToDate 的临床决策支持工具。我们使用 NCBI Bookshelf 提供的 9,330 篇公开的 StatPearl 文章来构建 StatPearls 语料库。我们根据文章的层次结构对 StatPearls 进行了分块处理,将每篇文章中的每个段落视为一个片段,并将所有相关的层次标题拼接为相应的标题。我们的分块语料库包含 301,202 个片段,平均每个片段包含 119 个词。

数据集结构

每行是一个 StatPearls 的片段,包含以下特征:

  • id: 片段的唯一标识符
  • title: 片段所属的 StatPearl 文章的标题和子标题
  • content: 片段的内容
  • contents: title 和 content 的拼接,将由 BM25 检索器使用

使用方法

直接使用

shell git clone https://github.com/Teddy-XiongGZ/MedRAG.git cd MedRAG

wget https://ftp.ncbi.nlm.nih.gov/pub/litarch/3d/12/statpearls_NBK430685.tar.gz -P ./corpus/statpearls tar -xzvf ./corpus/statpearls/statpearls_NBK430685.tar.gz -C ./corpus/statpearls python src/data/statpearls.py

在 MedRAG 中使用

python

from src.medrag import MedRAG

question = "A lesion causing compression of the facial nerve at the stylomastoid foramen will cause ipsilateral" options = { "A": "paralysis of the facial muscles.", "B": "paralysis of the facial muscles and loss of taste.", "C": "paralysis of the facial muscles, loss of taste and lacrimation.", "D": "paralysis of the facial muscles, loss of taste, lacrimation and decreased salivation." }

medrag = MedRAG(llm_name="OpenAI/gpt-3.5-turbo-16k", rag=True, retriever_name="MedCPT", corpus_name="StatPearls") answer, snippets, scores = medrag.answer(question=question, options=options, k=32) # scores are given by the retrieval system

引用

shell @article{xiong2024benchmarking, title={Benchmarking Retrieval-Augmented Generation for Medicine}, author={Guangzhi Xiong and Qiao Jin and Zhiyong Lu and Aidong Zhang}, journal={arXiv preprint arXiv:2402.13178}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
MedRAG/statpearls数据集的构建,是基于StatPearls这一临床决策支持工具中的公开文章。通过对9,330篇公开的StatPearls文章进行段落切分,将每篇文章的每个段落视为一个片段,并将相关的层级标题拼接为对应的标题,从而构建了一个包含301,202个片段的语料库,平均每个片段包含119个token。
特点
该数据集的特点在于,它专门用于医学领域的检索增强生成(RAG)。数据集遵循StatPearls的隐私政策,不直接分发内容,而是提供指引至NCBI Bookshelf下载原始数据,并使用提供的代码进行片段化处理。此外,数据集的结构包括唯一的片段标识符、标题、内容以及标题和内容的组合,后者供BM25检索器使用。
使用方法
MedRAG/statpearls数据集的使用分为直接使用和在MedRAG系统中的使用。直接使用时,用户需从NCBI Bookshelf下载原始数据,并利用提供的Python脚本来处理数据。在MedRAG系统中使用时,用户可以通过MedRAG类的实例来对问题进行回答,系统会根据提供的问题和选项,使用检索系统获取相关片段,并基于这些片段生成答案。
背景与挑战
背景概述
MedRAG/statpearls数据集源于MedRAG项目,旨在为医学领域提供一种检索增强生成(Retrieval-Augmented Generation, RAG)的解决方案。该数据集以StatPearls文库为基础,StatPearls是一个类似于UpToDate的临床决策支持工具,提供了9330篇公开可用的文章,这些文章经过分块处理,形成了包含301,202个片段的数据集,每个片段平均包含119个标记。MedRAG/statpearls数据集的创建,为医学信息检索与自动问答系统的研究提供了重要资源,对于推动医学自然语言处理技术的发展具有显著影响。该数据集的研究始于2024年,由Guangzhi Xiong、Qiao Jin、Zhiyong Lu和Aidong Zhang等研究人员共同完成,并在arXiv预印本上发表了相关研究论文。
当前挑战
在构建MedRAG/statpearls数据集的过程中,研究者面临了诸多挑战。首先,数据集的构建需遵循StatPearls的隐私政策,不能直接分发内容,研究者需从NCBI Bookshelf下载原始数据,并使用特定的代码进行处理。其次,数据集的构建过程中,如何有效地将文章分块并提取相关信息,以适应检索增强生成的需求,也是一项技术挑战。此外,数据集在实际应用中,如何确保检索的准确性和生成内容的医学准确性,也是当前和未来研究需要解决的问题。
常用场景
经典使用场景
在医学信息检索与增强生成领域,MedRAG/statpearls数据集的应用可谓至关重要。该数据集被广泛用于构建医学问答系统,通过对大量医学文献的细粒度处理,为生成准确、高质量的医学回答提供了基础。
解决学术问题
MedRAG/statpearls数据集解决了传统医学信息检索系统中准确性和全面性不足的问题。它通过结合检索增强生成技术,有效提高了医学问答的准确度和效率,对于提升医学决策支持工具的性能具有重要意义。
衍生相关工作
基于MedRAG/statpearls数据集,研究者们已衍生出一系列相关工作,包括但不限于构建更为先进的医学问答模型、开发新的医学信息检索算法,以及探索医学知识图谱的构建与应用,这些研究进一步推动了医学信息学的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作