CBLUE医疗搜索查询词相关性

Name: CBLUE医疗搜索查询词相关性
Creator: maas
Published: 2026-04-28 11:20:31
License: 暂无描述

魔搭社区2026-04-28 更新2024-05-15 收录

下载链接：

https://modelscope.cn/datasets/chuanqi/CBLUE-KUAKE-QQR

下载链接

链接失效反馈

官方服务：

资源简介：

# 概述 KUAKE-QQR 医疗搜索查询词-查询词相关性数据集，用于计算医疗搜索查询词之间的相关性，即判断Query-A和Query-B是否发生转义，以及转义的程度。 Query即搜索词，包括用户在搜索框中输入的词、数字、符号等内容，Query的主题是指query的专注点，用户在输入query是希望找到与query主题相关的网页。判定两个查询词之间的相关性是一项重要的任务，常用于长尾query的搜索质量优化场景，本任务数据集就是在这样的背景下产生的。 # 数据集描述 Query和Query的相关度共分为3档（0-2），0分为相关性最差，2分表示相关性最好。 2分：表示A与B等价，表述完全一致。 1分：B为A的语义子集，B指代范围小于A。 0分：B为A的语义父集，B指代范围大于A；或者A与B语义毫无关联。训练集数据15000条，验证集数据1600条，测试集数据1596条。数据来源于[中文医疗信息处理评测基准CBLUE](https://tianchi.aliyun.com/dataset/95414) ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/chuanqi/CBLUE-KUAKE-QQR.git ``` ### 相关论文以及引用信息如果该数据对您有帮助，请您引用我们的文章： ```BibTex @inproceedings{zhang-etal-2022-cblue, title = "{CBLUE}: A {C}hinese Biomedical Language Understanding Evaluation Benchmark", author = "Zhang, Ningyu and Chen, Mosha and Bi, Zhen and Liang, Xiaozhuan and Li, Lei and Shang, Xin and Yin, Kangping and Tan, Chuanqi and Xu, Jian and Huang, Fei and Si, Luo and Ni, Yuan and Xie, Guotong and Sui, Zhifang and Chang, Baobao and Zong, Hui and Yuan, Zheng and Li, Linfeng and Yan, Jun and Zan, Hongying and Zhang, Kunli and Tang, Buzhou and Chen, Qingcai", booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.acl-long.544", pages = "7888--7915" } ```

# 概述 KUAKE-QQR医疗搜索查询词-查询词相关性数据集，用于评估医疗搜索查询词间的相关性，即判断查询词（Query）A与查询词（Query）B是否发生语义转义，以及转义的程度。查询词（Query）即搜索词，涵盖用户在搜索框中输入的词语、数字、符号等内容；查询词的主题指的是该查询词的核心关注点，用户输入查询词时，旨在获取与该主题相关的网页资源。判断两个查询词间的相关性是一项具有重要应用价值的任务，常应用于长尾查询词的搜索质量优化场景，本任务数据集正是基于此背景构建而成。 # 数据集描述查询词间的相关度共分为3个等级（0至2分），0分代表相关性最弱，2分则表示相关性最强。 2分：表示查询词A与查询词B完全等价，表述完全一致。 1分：表示查询词B是查询词A的语义子集，即B的指代范围小于A。 0分：表示查询词B是查询词A的语义父集，即B的指代范围大于A；或查询词A与B之间无任何语义关联。数据集包含训练集15000条、验证集1600条与测试集1596条。本数据集源自中文医疗信息处理评测基准CBLUE（Chinese Biomedical Language Understanding Evaluation Benchmark），公开链接为：https://tianchi.aliyun.com/dataset/95414 ### 使用HTTP克隆 bash git clone https://www.modelscope.cn/datasets/chuanqi/CBLUE-KUAKE-QQR.git ### 相关论文与引用规范若本数据集对您的研究有所助益，请引用如下论文： BibTex @inproceedings{zhang-etal-2022-cblue, title = "{CBLUE}: A {C}hinese Biomedical Language Understanding Evaluation Benchmark", author = "Zhang, Ningyu and Chen, Mosha and Bi, Zhen and Liang, Xiaozhuan and Li, Lei and Shang, Xin and Yin, Kangping and Tan, Chuanqi and Xu, Jian and Huang, Fei and Si, Luo and Ni, Yuan and Xie, Guotong and Sui, Zhifang and Chang, Baobao and Zong, Hui and Yuan, Zheng and Li, Linfeng and Yan, Jun and Zan, Hongying and Zhang, Kunli and Tang, Buzhou and Chen, Qingcai", booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.acl-long.544", pages = "7888--7915" }

提供机构：

maas

创建时间：

2022-12-23

搜集汇总

数据集介绍