Santosh-Gupta/EncephalitisQueryDocuments
收藏Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Santosh-Gupta/EncephalitisQueryDocuments
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含脑炎标题/摘要与相关搜索查询的配对。标题是名为Title_Abstract的列中的第一句话。搜索查询与摘要高度相关,但使用了不同的关键词和措辞,因此在使用传统搜索引擎时,这些查询可能不会返回相应的摘要。数据集的目的是训练模型,以检索可能被传统术语匹配方法忽略的相关文档。数据集创建于2023年8月,包含53,146个使用Biopython库收集的脑炎摘要,并使用GPT-3.5为每个摘要生成多个相关但措辞不同的搜索查询。通过训练这些数据,语义模型可以更好地将用户搜索查询与相关内容连接起来,从而提高医学文献等专业领域的搜索召回率。
该数据集包含脑炎标题/摘要与相关搜索查询的配对。标题是名为Title_Abstract的列中的第一句话。搜索查询与摘要高度相关,但使用了不同的关键词和措辞,因此在使用传统搜索引擎时,这些查询可能不会返回相应的摘要。数据集的目的是训练模型,以检索可能被传统术语匹配方法忽略的相关文档。数据集创建于2023年8月,包含53,146个使用Biopython库收集的脑炎摘要,并使用GPT-3.5为每个摘要生成多个相关但措辞不同的搜索查询。通过训练这些数据,语义模型可以更好地将用户搜索查询与相关内容连接起来,从而提高医学文献等专业领域的搜索召回率。
提供机构:
Santosh-Gupta
原始信息汇总
脑炎标题、摘要和搜索查询数据集
概述
该数据集包含脑炎标题/摘要和相关搜索查询的对。标题是名为Title_Abstract的列中的第一句话。
特点
- 搜索查询与摘要高度相关,但使用不同的关键词和表述方式。
- 这些查询可能导致传统搜索引擎无法检索到相关摘要。
目标
该数据集旨在训练模型,以检索可能被传统术语匹配方法忽略的相关文档。
创建和内容
- 数据集创建于2023年8月,包含53,146个脑炎摘要,使用Biopython库收集。
- GPT-3.5用于为每个摘要生成多个相关搜索查询,这些查询在主题上与摘要相关,但用词/表述不同。
应用
通过训练此数据,可以提高语义模型连接用户搜索查询与相关内容的能力,从而改善医疗文献等专业领域的搜索召回率。



