stella_trec24_biogen_embedding

Name: stella_trec24_biogen_embedding
Creator: The Information Engineering Lab
Published: 2024-11-27 11:53:02
License: 暂无描述

Hugging Face2024-11-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ielabgroup/stella_trec24_biogen_embedding

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含TREC24 BioGen PubMed语料库和测试查询的stella_en_1.5B_v5嵌入。语料库包含从TREC BioGen中提取的17801589个样本，每个样本包含一个ID和一个1024维的embedding。测试查询部分包含65个样本，每个样本同样包含一个ID和一个1024维的embedding。输入文本为Stella编码器的标题和摘要（以空格分隔），查询提示输入文本为特定的医学查询格式。

This dataset contains the embeddings of the TREC24 BioGen PubMed corpus and test queries generated by stella_en_1.5B_v5. The corpus consists of 17,801,589 samples extracted from TREC BioGen, with each sample containing an ID and a 1024-dimensional embedding. The test query subset includes 65 samples, each also containing an ID and a 1024-dimensional embedding. The input texts are titles and abstracts separated by spaces, processed by the Stella encoder, while the query prompt input texts follow a specific medical query format.

提供机构：

The Information Engineering Lab

创建时间：

2024-11-27

搜集汇总

数据集介绍

构建方式

stella_trec24_biogen_embedding数据集的构建基于TREC24 BioGen PubMed语料库及其测试查询。首先，从TREC BioGen中提取了20723868个唯一的PMID样本，随后移除了摘要为空的数据，最终保留了17801589个样本。语料库的输入文本由标题和摘要组成，两者之间以空格分隔。测试查询的输入文本则采用了特定的提示格式，即`Instruct: Given a medical query, retrieve documents that answer the query. Query: {query}`。这些文本通过Stella编码器模型生成嵌入向量，最终形成了包含ID和嵌入向量的数据集。

使用方法

stella_trec24_biogen_embedding数据集的使用方法主要围绕生物医学文献的检索任务展开。用户可以通过加载数据集，获取corpus和test_query部分的嵌入向量。对于corpus部分，嵌入向量可用于构建文献检索系统，通过计算向量间的相似度来匹配相关文献。对于test_query部分，嵌入向量可用于评估检索系统的性能，通过对比查询向量与文献向量的相似度来验证检索效果。数据集的使用场景包括但不限于生物医学信息检索、文献推荐系统以及相关研究领域的模型训练与评估。

背景与挑战

背景概述

stella_trec24_biogen_embedding数据集由TREC24 BioGen PubMed语料库及其测试查询的Stella模型嵌入构成，旨在推动生物医学信息检索领域的研究。该数据集由TREC组织于2024年创建，主要研究人员包括生物信息学和自然语言处理领域的专家。其核心研究问题在于如何通过高效的嵌入技术提升医学文献检索的准确性和效率。该数据集通过对PubMed文献的标题和摘要进行编码，生成了17801589个样本的嵌入表示，为生物医学领域的文本检索任务提供了重要的数据支持。其影响力不仅体现在推动了生物医学信息检索技术的发展，还为相关领域的研究者提供了高质量的基准数据集。

当前挑战

stella_trec24_biogen_embedding数据集在构建和应用过程中面临多重挑战。在领域问题层面，生物医学文献的复杂性和专业性对嵌入模型的语义理解能力提出了极高要求，如何准确捕捉医学文本的细微差异成为关键挑战。在构建过程中，数据预处理环节需处理大量文献，并剔除摘要为空的数据，这对数据清洗和筛选的效率提出了较高要求。此外，嵌入模型的输入格式设计，尤其是查询提示文本的构造，需兼顾语义表达和模型兼容性，这对数据集的可用性和泛化能力提出了进一步挑战。这些问题的解决直接关系到数据集在生物医学信息检索任务中的实际应用效果。

常用场景

经典使用场景

在生物医学信息检索领域，stella_trec24_biogen_embedding数据集被广泛应用于文档检索任务。该数据集通过Stella编码器模型生成的嵌入向量，能够高效地表示医学文献的标题和摘要信息，为研究者提供了一个强大的工具，用于在庞大的生物医学文献库中快速定位相关文档。

解决学术问题

该数据集解决了生物医学文献检索中的关键问题，即如何在大规模文献库中高效、准确地检索出与特定医学查询相关的文档。通过使用Stella编码器生成的嵌入向量，研究者能够克服传统检索方法在处理复杂医学文本时的局限性，显著提升了检索的精度和效率。

实际应用

在实际应用中，stella_trec24_biogen_embedding数据集被广泛应用于医学研究、药物开发和临床决策支持系统。通过该数据集，研究人员能够快速获取与特定疾病、药物或治疗方法相关的最新文献，从而加速科研进程，提高临床决策的准确性和时效性。

数据集最近研究