five

MedRAG/wikipedia

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MedRAG/wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
该HuggingFace数据集包含用于MedRAG的Wikipedia语料库的分块片段,可用于医学检索增强生成(RAG)。作为一个大规模的开源百科全书,Wikipedia常被用作信息检索任务的语料库。我们选择Wikipedia作为语料库之一,以探讨通用领域数据库是否能提高医学问答的能力。我们从HuggingFace下载了处理过的Wikipedia数据,并使用LangChain将文本分块为不超过1000个字符的片段。该数据集包含29,913,202个片段,每个片段平均包含162个标记。每个片段都有唯一的ID、来源文章的标题、内容以及标题和内容的组合。

该HuggingFace数据集包含用于MedRAG的Wikipedia语料库的分块片段,可用于医学检索增强生成(RAG)。作为一个大规模的开源百科全书,Wikipedia常被用作信息检索任务的语料库。我们选择Wikipedia作为语料库之一,以探讨通用领域数据库是否能提高医学问答的能力。我们从HuggingFace下载了处理过的Wikipedia数据,并使用LangChain将文本分块为不超过1000个字符的片段。该数据集包含29,913,202个片段,每个片段平均包含162个标记。每个片段都有唯一的ID、来源文章的标题、内容以及标题和内容的组合。
提供机构:
MedRAG
原始信息汇总

The Wikipedia Corpus in MedRAG

数据集描述

该数据集包含从维基百科语料库中提取的片段,用于MedRAG中的医疗检索增强生成(RAG)任务。维基百科作为一个大规模的开源百科全书,常用于信息检索任务。我们选择维基百科作为语料库之一,以探索通用领域数据库是否能提升医疗问答的能力。我们从HuggingFace下载了处理过的维基百科数据,并使用LangChain将文本分割成不超过1000个字符的片段。该数据集包含29,913,202个片段,平均每个片段包含162个词。

数据集结构

每个片段包含以下特征:

  • id: 片段的唯一标识符
  • title: 片段来源的维基百科文章标题
  • content: 片段内容
  • contents: title和content的连接,将用于BM25检索器

使用方法

直接使用

可以通过以下命令克隆数据集: shell git clone https://huggingface.co/datasets/MedRAG/wikipedia

在MedRAG中使用

示例代码如下: python

from src.medrag import MedRAG

question = "A lesion causing compression of the facial nerve at the stylomastoid foramen will cause ipsilateral" options = { "A": "paralysis of the facial muscles.", "B": "paralysis of the facial muscles and loss of taste.", "C": "paralysis of the facial muscles, loss of taste and lacrimation.", "D": "paralysis of the facial muscles, loss of taste, lacrimation and decreased salivation." }

medrag = MedRAG(llm_name="OpenAI/gpt-3.5-turbo-16k", rag=True, retriever_name="MedCPT", corpus_name="Wikipedia") answer, snippets, scores = medrag.answer(question=question, options=options, k=32) # scores are given by the retrieval system

引用

shell @article{xiong2024benchmarking, title={Benchmarking Retrieval-Augmented Generation for Medicine}, author={Guangzhi Xiong and Qiao Jin and Zhiyong Lu and Aidong Zhang}, journal={arXiv preprint arXiv:2402.13178}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
MedRAG/wikipedia数据集的构建,是基于对大规模开源百科全书Wikipedia的深入挖掘与应用。研究者选取了Wikipedia作为语料库,以检验通用领域数据库是否能够提升医疗问答的能力。通过从HuggingFace获取处理过的Wikipedia数据,并利用LangChain工具将其文本切割为不超过1000字符的片段,最终形成了包含29,913,202个片段的数据集,每个片段平均包含162个token。
特点
该数据集的特点在于,它是一个针对医疗领域检索增强生成(Retrieval-Augmented Generation, RAG)任务的专门构建的语料库。数据集的片段来源于Wikipedia,覆盖了广泛的主题,且每个片段均具有唯一的标识符,并包含了片段标题、内容以及标题和内容的组合,便于BM25检索器使用。
使用方法
使用该数据集的直接方式是通过HuggingFace的git克隆命令进行下载。在MedRAG框架中,可以通过MedRAG类来集成和使用该数据集。例如,在提供一个问题和选项列表后,可以利用MedRAG实例调用answer方法,结合检索系统提供的分数,得到问题的答案和相关片段信息。此外,数据集的引用格式也已经提供,便于在学术研究中正确引用。
背景与挑战
背景概述
MedRAG/wikipedia数据集源于医学问答领域的研究需求,旨在探索大规模开源百科全书Wikipedia在提升医学问答能力方面的潜力。该数据集由MedRAG研究团队创建于2024年,核心研究问题是如何利用通用领域的数据库增强医学问答系统的效能。MedRAG/wikipedia数据集包含29,913,202个经过处理的Wikipedia文本片段,平均162个token,为医学检索增强生成(Retrieval-Augmented Generation, RAG)任务提供了丰富的语料资源。该数据集的研究成果已发表于arXiv预印本,对医学信息检索和自然语言处理领域产生了积极影响。
当前挑战
该数据集面临的挑战主要包括:如何确保Wikipedia的通用领域数据能够有效服务于医学问答这一特定领域;在构建过程中,如何处理和分割大量文本数据,以保证片段的质量和适用性。此外,数据集构建过程中的技术挑战还包括了文本的预处理、唯一标识符的生成,以及如何通过BM25检索器高效地利用标题和内容组合信息。
常用场景
经典使用场景
MedRAG/wikipedia数据集,作为MedRAG研究中的一部分,其经典使用场景在于辅助医疗问答系统。该数据集通过将 Wikipedia 的内容分块处理,使之适用于信息检索任务,进而增强医疗领域的问题回答能力。通过整合大规模开放源百科全书的信息,该数据集为构建和优化医疗问答模型提供了丰富的语料支持。
解决学术问题
该数据集的构建解决了传统医疗问答系统中信息检索准确性不足的问题。通过采用大规模的维基百科文本作为语料库,MedRAG/wikipedia数据集提高了模型在处理医疗相关问题的能力,为学术研究提供了可靠的数据基础,进一步推动了医疗信息检索与生成技术的发展。
衍生相关工作
基于MedRAG/wikipedia数据集,已经衍生出一系列相关工作,如MedRAG模型的开发,该模型结合了检索增强生成技术,显著提升了医疗领域的问题回答质量。此外,相关研究还涉及到了大规模语言模型在医疗信息处理中的应用,为后续的学术探索和技术创新奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作