five

CBLUE医疗搜索查询词相关性

收藏
魔搭社区2026-04-28 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/chuanqi/CBLUE-KUAKE-QQR
下载链接
链接失效反馈
官方服务:
资源简介:
# 概述 KUAKE-QQR 医疗搜索查询词-查询词相关性数据集,用于计算医疗搜索查询词之间的相关性,即判断Query-A和Query-B是否发生转义,以及转义的程度。 Query即搜索词,包括用户在搜索框中输入的词、数字、符号等内容,Query的主题是指query的专注点,用户在输入query是希望找到与query主题相关的网页。 判定两个查询词之间的相关性是一项重要的任务,常用于长尾query的搜索质量优化场景,本任务数据集就是在这样的背景下产生的。 # 数据集描述 Query和Query的相关度共分为3档(0-2),0分为相关性最差,2分表示相关性最好。 2分:表示A与B等价,表述完全一致。 1分:B为A的语义子集,B指代范围小于A。 0分:B为A的语义父集,B指代范围大于A; 或者A与B语义毫无关联。 训练集数据15000条,验证集数据1600条,测试集数据1596条。 数据来源于[中文医疗信息处理评测基准CBLUE](https://tianchi.aliyun.com/dataset/95414) ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/chuanqi/CBLUE-KUAKE-QQR.git ``` ### 相关论文以及引用信息 如果该数据对您有帮助,请您引用我们的文章: ```BibTex @inproceedings{zhang-etal-2022-cblue, title = "{CBLUE}: A {C}hinese Biomedical Language Understanding Evaluation Benchmark", author = "Zhang, Ningyu and Chen, Mosha and Bi, Zhen and Liang, Xiaozhuan and Li, Lei and Shang, Xin and Yin, Kangping and Tan, Chuanqi and Xu, Jian and Huang, Fei and Si, Luo and Ni, Yuan and Xie, Guotong and Sui, Zhifang and Chang, Baobao and Zong, Hui and Yuan, Zheng and Li, Linfeng and Yan, Jun and Zan, Hongying and Zhang, Kunli and Tang, Buzhou and Chen, Qingcai", booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.acl-long.544", pages = "7888--7915" } ```

# 概述 KUAKE-QQR医疗搜索查询词-查询词相关性数据集,用于评估医疗搜索查询词间的相关性,即判断查询词(Query)A与查询词(Query)B是否发生语义转义,以及转义的程度。 查询词(Query)即搜索词,涵盖用户在搜索框中输入的词语、数字、符号等内容;查询词的主题指的是该查询词的核心关注点,用户输入查询词时,旨在获取与该主题相关的网页资源。 判断两个查询词间的相关性是一项具有重要应用价值的任务,常应用于长尾查询词的搜索质量优化场景,本任务数据集正是基于此背景构建而成。 # 数据集描述 查询词间的相关度共分为3个等级(0至2分),0分代表相关性最弱,2分则表示相关性最强。 2分:表示查询词A与查询词B完全等价,表述完全一致。 1分:表示查询词B是查询词A的语义子集,即B的指代范围小于A。 0分:表示查询词B是查询词A的语义父集,即B的指代范围大于A;或查询词A与B之间无任何语义关联。 数据集包含训练集15000条、验证集1600条与测试集1596条。 本数据集源自中文医疗信息处理评测基准CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark),公开链接为:https://tianchi.aliyun.com/dataset/95414 ### 使用HTTP克隆 bash git clone https://www.modelscope.cn/datasets/chuanqi/CBLUE-KUAKE-QQR.git ### 相关论文与引用规范 若本数据集对您的研究有所助益,请引用如下论文: BibTex @inproceedings{zhang-etal-2022-cblue, title = "{CBLUE}: A {C}hinese Biomedical Language Understanding Evaluation Benchmark", author = "Zhang, Ningyu and Chen, Mosha and Bi, Zhen and Liang, Xiaozhuan and Li, Lei and Shang, Xin and Yin, Kangping and Tan, Chuanqi and Xu, Jian and Huang, Fei and Si, Luo and Ni, Yuan and Xie, Guotong and Sui, Zhifang and Chang, Baobao and Zong, Hui and Yuan, Zheng and Li, Linfeng and Yan, Jun and Zan, Hongying and Zhang, Kunli and Tang, Buzhou and Chen, Qingcai", booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.acl-long.544", pages = "7888--7915" }
提供机构:
maas
创建时间:
2022-12-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集为CBLUE医疗搜索查询词相关性数据集,用于评估医疗搜索查询之间的相关性,包括判断查询转换及其程度。相关性分为三个等级(0-2),分别表示最不相关到最相关,数据集包含15,000个训练样本、1,600个验证样本和1,596个测试样本,源自CBLUE中文医学信息处理基准。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务