five

MedRAG/textbooks

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MedRAG/textbooks
下载链接
链接失效反馈
官方服务:
资源简介:
该HuggingFace数据集包含用于MedRAG的Textbooks语料库的分块片段。数据集来源于18本广泛使用的医学教科书,这些教科书是美国医学执照考试(USLME)的重要参考资料。数据集中的文本被处理为不超过1000字符的片段,使用了LangChain的RecursiveCharacterTextSplitter进行分块处理。数据集包含125,847个片段,平均每个片段有182个标记。每个片段包括唯一的标识符、教科书标题、片段内容以及标题和内容的拼接。数据集可用于医学检索增强生成(RAG)任务。

This Hugging Face dataset contains chunked segments of the textbook corpus for MedRAG. The dataset is derived from 18 widely utilized medical textbooks, which serve as critical reference materials for the United States Medical Licensing Examination (USLME). The text within the dataset is processed into segments of no more than 1000 characters via LangChain's RecursiveCharacterTextSplitter for chunking operations. The dataset comprises 125,847 segments, with an average of 182 tokens per segment. Each segment includes a unique identifier, the textbook title, the segment content, and the concatenation of the title and content. This dataset is applicable to medical retrieval-augmented generation (RAG) tasks.
提供机构:
MedRAG
原始信息汇总

医学教科书语料库(MedRAG)

数据集描述

数据集来源

该数据集包含从18本广泛使用的医学教科书中提取的片段,这些教科书是学生参加美国医学执照考试(USLME)的重要参考资料。在MedRAG中,这些教科书被处理成不超过1000个字符的片段。

数据处理

使用LangChain的RecursiveCharacterTextSplitter进行分块处理。数据集包含125,847个片段,平均每个片段包含182个词。

数据结构

每个片段包含以下特征:

  • id:片段的唯一标识符
  • title:片段来源的教科书标题
  • content:片段内容
  • contents:title和content的串联,用于BM25检索器

使用场景

直接使用

数据集可以直接用于医学领域的检索增强生成(RAG)任务。

在MedRAG中的使用

数据集可用于MedRAG模型中,进行医学问题的回答和选项评估。

引用

shell @article{xiong2024benchmarking, title={Benchmarking Retrieval-Augmented Generation for Medicine}, author={Guangzhi Xiong and Qiao Jin and Zhiyong Lu and Aidong Zhang}, journal={arXiv preprint arXiv:2402.13178}, year={2024} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MedRAG/textbooks数据集是一个包含18本医学教科书文本片段的集合,专为医学检索增强生成(RAG)设计。数据集包含125,847个片段,每个片段平均182个标记,适用于医学知识检索和生成任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作