中文多领域段落检索评测基准Multi-CPR
收藏阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/135962
下载链接
链接失效反馈官方服务:
资源简介:
Multi-CPR (A Multi-Domain Chinese Dataset for Passage Retrieval) 是用于段落检索的多领域中文数据集。 该数据集包括电商、娱乐视频和医疗3个领域,每个数据集包含数百万个段落和一定数量的人工标注查询-段落相关对。数据集由阿里巴巴智能引擎事业部提供,旨在推动中文跨领域段落检索技术的发展。<br />
Website:https://tianchi.aliyun.com/MultiCPR <br />
Paper: https://arxiv.org/abs/2203.03367<br />
Github: https://github.com/Alibaba-NLP/Multi-CPR<br />
Multi-CPR (A Multi-Domain Chinese Dataset for Passage Retrieval) is a multi-domain Chinese dataset designed for passage retrieval tasks. It encompasses three domains: e-commerce, entertainment video, and healthcare. Each domain-specific subset includes millions of passages and a number of manually annotated query-passage relevance pairs. The dataset is supplied by the Intelligent Engine Division of Alibaba, with the objective of advancing the development of cross-domain Chinese passage retrieval technologies.
Website: https://tianchi.aliyun.com/MultiCPR
Paper: https://arxiv.org/abs/2203.03367
Github: https://github.com/Alibaba-NLP/Multi-CPR
提供机构:
阿里云天池
创建时间:
2022-08-12
搜集汇总
数据集介绍

背景与挑战
背景概述
Multi-CPR是一个多领域中文段落检索数据集,覆盖电商、娱乐视频和医疗三个领域,每个领域包含数百万个段落和大量人工标注的查询-段落相关对,数据源自真实业务场景以确保多样性和准确性。该数据集旨在促进中文跨领域检索技术的研究与评测,提供完整的训练、验证和测试数据,并采用MRR@10作为评估指标。
以上内容由遇见数据集搜集并总结生成



