five

Santosh-Gupta/EncephalitisQueryDocuments

收藏
Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Santosh-Gupta/EncephalitisQueryDocuments
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含脑炎标题/摘要与相关搜索查询的配对。标题是名为Title_Abstract的列中的第一句话。搜索查询与摘要高度相关,但使用了不同的关键词和措辞,因此在使用传统搜索引擎时,这些查询可能不会返回相应的摘要。数据集的目的是训练模型,以检索可能被传统术语匹配方法忽略的相关文档。数据集创建于2023年8月,包含53,146个使用Biopython库收集的脑炎摘要,并使用GPT-3.5为每个摘要生成多个相关但措辞不同的搜索查询。通过训练这些数据,语义模型可以更好地将用户搜索查询与相关内容连接起来,从而提高医学文献等专业领域的搜索召回率。

该数据集包含脑炎标题/摘要与相关搜索查询的配对。标题是名为Title_Abstract的列中的第一句话。搜索查询与摘要高度相关,但使用了不同的关键词和措辞,因此在使用传统搜索引擎时,这些查询可能不会返回相应的摘要。数据集的目的是训练模型,以检索可能被传统术语匹配方法忽略的相关文档。数据集创建于2023年8月,包含53,146个使用Biopython库收集的脑炎摘要,并使用GPT-3.5为每个摘要生成多个相关但措辞不同的搜索查询。通过训练这些数据,语义模型可以更好地将用户搜索查询与相关内容连接起来,从而提高医学文献等专业领域的搜索召回率。
提供机构:
Santosh-Gupta
原始信息汇总

脑炎标题、摘要和搜索查询数据集

概述

该数据集包含脑炎标题/摘要和相关搜索查询的对。标题是名为Title_Abstract的列中的第一句话。

特点

  • 搜索查询与摘要高度相关,但使用不同的关键词和表述方式。
  • 这些查询可能导致传统搜索引擎无法检索到相关摘要。

目标

该数据集旨在训练模型,以检索可能被传统术语匹配方法忽略的相关文档。

创建和内容

  • 数据集创建于2023年8月,包含53,146个脑炎摘要,使用Biopython库收集。
  • GPT-3.5用于为每个摘要生成多个相关搜索查询,这些查询在主题上与摘要相关,但用词/表述不同。

应用

通过训练此数据,可以提高语义模型连接用户搜索查询与相关内容的能力,从而改善医疗文献等专业领域的搜索召回率。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作