PubMed Author Manuscripts Database

github2024-04-20 更新2024-05-31 收录

下载链接：

https://github.com/ArdaGurcan/Retrieval-Augmented-Generation

下载链接

链接失效反馈

官方服务：

资源简介：

PubMed作者手稿数据库是用于原型设计的小型数据集，足够大以满足用例测试。使用了前100条记录进行测试，因为它们足以超过text-embedding-3-small和gpt-3.5-turbo的上下文窗口。

The PubMed Author Manuscript Database is a small-scale dataset intended for prototyping, which is large enough to support use case testing. The first 100 records were selected for testing, as they are sufficient to exceed the context window of text-embedding-3-small and gpt-3.5-turbo.

创建时间：

2024-04-20

原始信息汇总

数据集概述

数据集名称

PubMed Author Manuscripts Database

数据集来源

Hugging Face

数据集用途

用于原型开发，特别是用于测试和验证基于OpenAI GPT模型的聊天机器人。

数据集规模

使用前100条记录进行测试。

数据集处理

数据通过small_pubmed_manuscripts.jsonl文件读入Weaviate向量数据库。
使用OpenAI的text-embedding-3-small模型将数据转换为向量嵌入进行存储。

数据集面临的挑战

部分手稿长度超过嵌入模型（text-embedding-3-small）的上下文长度，解决方案是将每个手稿分割成重叠的窗口。
初始使用用户原始提示进行向量相似性搜索，降低了搜索结果的质量。改进方法是通过OpenAI模型从用户问题中提取关键词，但这种方法未考虑依赖于先前消息的问题，最终解决方案是包括消息历史以提取提示。

搜集汇总

数据集介绍

构建方式

PubMed Author Manuscripts Database的构建方式主要依赖于将数据集中的文本内容转化为向量嵌入，以便于高效存储和检索。具体而言，数据集中的每篇手稿首先被读入Weaviate向量数据库，通过OpenAI的text-embedding-3-small模型将其转化为向量嵌入。对于超出模型上下文长度的手稿，采用了分割成重叠窗口的方法来处理。这一过程在`weaviate-setup.ipynb`中实现，确保了数据的高效存储和后续的快速检索。

特点

PubMed Author Manuscripts Database的主要特点在于其结合了向量数据库和自然语言处理模型的优势。通过Weaviate数据库的向量存储，数据集能够实现高效的混合搜索，便于调试和扩展。此外，数据集的规模适中，适合用于原型开发，且通过OpenAI的GPT模型进行关键词提取和问答生成，使得用户能够以自然语言的方式与数据集进行交互，提升了数据的可访问性和实用性。

使用方法

使用PubMed Author Manuscripts Database时，用户可以通过命令行界面与数据集进行交互。首先，用户输入问题，系统会利用OpenAI的gpt-3.5-turbo模型提取关键词，并在Weaviate数据库中进行向量相似度搜索，找到与问题最相关的数据对象。随后，系统将搜索结果与问题结合，再次通过OpenAI的模型生成回答。整个过程在`main.py`中实现，用户只需运行该脚本并输入问题即可获得相应的回答。

背景与挑战

背景概述

PubMed Author Manuscripts Database是由TaylorAI团队创建的一个专门用于存储和查询PubMed作者手稿的数据集。该数据集的创建旨在为研究人员提供一个高效、便捷的工具，以便他们能够快速获取和分析生物医学领域的研究文献。PubMed作为全球最大的生物医学文献数据库，其作者手稿数据集的构建不仅为学术界提供了丰富的研究资源，还为自然语言处理和信息检索领域的研究提供了宝贵的数据支持。通过结合OpenAI的GPT模型和Weaviate向量数据库，该数据集能够实现高效的文献检索和问答功能，极大地提升了研究人员的工作效率。

当前挑战

PubMed Author Manuscripts Database在构建和应用过程中面临了多个挑战。首先，部分手稿的长度超过了嵌入模型（如text-embedding-3-small）的上下文长度限制，导致在数据读入过程中需要将手稿分割成重叠的窗口。其次，最初直接使用用户的原始提示进行向量相似度搜索，导致搜索结果质量下降。为解决这一问题，引入了从用户问题中提取关键词的机制，但这种方法未能充分考虑依赖于历史消息的问题。最终，通过在提示提取时结合消息历史，虽然提升了搜索质量，但显著增加了响应时间和成本。此外，数据集的规模和复杂性也对模型的处理能力和效率提出了更高的要求。

常用场景

经典使用场景

PubMed Author Manuscripts Database 数据集的经典使用场景主要体现在生物医学领域的知识问答系统中。通过将PubMed作者手稿数据集中的内容转化为向量嵌入，结合OpenAI的GPT模型和Weaviate向量数据库，用户可以高效地查询与生物医学相关的复杂问题。例如，用户可以询问关于特定激素对动物行为影响的详细机制，系统能够基于手稿中的研究内容生成准确的回答。这种交互式问答模式极大地提升了生物医学研究的效率和便捷性。

衍生相关工作

PubMed Author Manuscripts Database 数据集的引入催生了一系列相关的经典工作。例如，基于该数据集的智能问答系统已被用于开发更复杂的生物医学知识图谱，进一步提升了语义搜索的准确性和覆盖范围。此外，研究人员还利用该数据集进行自然语言处理模型的训练和评估，推动了生物医学文本分析技术的发展。这些衍生工作不仅丰富了数据集的应用场景，还为生物医学领域的智能化研究提供了新的思路和方法。

数据集最近研究