TianGong-PDR数据集
收藏智源2023-10-18 更新2025-04-26 收录
下载链接:
https://data.baai.ac.cn/datadetail/TianGongPDR
下载链接
链接失效反馈官方服务:
资源简介:
我们使用基于新浪新闻RSS订阅频道网页数据的中文新闻数据集THUCNews作为我们的语料库,并从中国流行的商业搜索引擎搜狗的10天查询日志中挑选查询
提供机构:
智源研究院
创建时间:
2022-05-27
搜集汇总
数据集介绍

背景与挑战
背景概述
TianGong-PDR是一个用于信息检索研究的中文数据集,包含70个查询、1050个文档和11512个段落,每个查询-文档和查询-段落对都配有四级人类评估相关性标签。该数据集基于THUCNews新闻语料和搜狗查询日志构建,通过BM25分数筛选文档,并支持文档级和段落级相关性分析,旨在促进检索模型和语言技术的研究。
以上内容由遇见数据集搜集并总结生成



