five

Multi-CPR: 大规模段落检索多领域中文数据集

收藏
阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/132745
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-CPR 是用于段落检索的多领域中文数据集。 该数据集是从三个不同的领域收集的,包括电商、娱乐视频和医疗。 每个数据集包含数百万个段落和一定数量的人工标注查询-段落相关对。

Multi-CPR is a multi-domain Chinese dataset designed for passage retrieval. This dataset is collected from three distinct domains, namely e-commerce, entertainment videos, and healthcare. Each domain-specific subset contains millions of passages and a certain number of manually annotated query-passage relevance pairs.
提供机构:
阿里云天池
创建时间:
2022-06-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Multi-CPR是一个面向段落检索任务的大规模多领域中文数据集,覆盖电商、娱乐视频和医疗三个领域。该数据集包含数百万个段落以及人工标注的查询-段落相关对,旨在支持相关模型训练与评估。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务