wikIR78k, wikIRS78k
收藏arXiv2020-03-17 更新2024-06-21 收录
下载链接:
https://www.zenodo.org/record/3707606, https://www.zenodo.org/record/3707238
下载链接
链接失效反馈官方服务:
资源简介:
wikIR78k和wikIRS78k是由格勒诺布尔-阿尔卑斯大学的研究团队基于维基百科创建的两个大规模英文信息检索数据集。这两个数据集均包含78,628个查询和超过300万(查询,相关文档)对,旨在解决深度学习模型在信息检索领域因数据量不足而表现不佳的问题。数据集的创建过程涉及从维基百科文章中提取信息,构建查询和文档,并通过特定的算法确定文档与查询的相关性。这些数据集特别适用于训练和评估深度文本匹配模型,尤其是在处理短而精确的查询(wikIR78k)和长而噪声较多的查询(wikIRS78k)时的表现。
提供机构:
格勒诺布尔-阿尔卑斯大学
创建时间:
2019-12-04



