five

wikIR78k, wikIRS78k

收藏
arXiv2020-03-17 更新2024-06-21 收录
下载链接:
https://www.zenodo.org/record/3707606, https://www.zenodo.org/record/3707238
下载链接
链接失效反馈
官方服务:
资源简介:
wikIR78k和wikIRS78k是由格勒诺布尔-阿尔卑斯大学的研究团队基于维基百科创建的两个大规模英文信息检索数据集。这两个数据集均包含78,628个查询和超过300万(查询,相关文档)对,旨在解决深度学习模型在信息检索领域因数据量不足而表现不佳的问题。数据集的创建过程涉及从维基百科文章中提取信息,构建查询和文档,并通过特定的算法确定文档与查询的相关性。这些数据集特别适用于训练和评估深度文本匹配模型,尤其是在处理短而精确的查询(wikIR78k)和长而噪声较多的查询(wikIRS78k)时的表现。
提供机构:
格勒诺布尔-阿尔卑斯大学
创建时间:
2019-12-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作