webis/ms-marco-anchor-text
收藏Webis MS MARCO Anchor Text 2022 数据集
概述
Webis MS MARCO Anchor Text 2022 数据集通过从六个 Common Crawl 快照中提取的锚文本,丰富了 MS MARCO 文档集合的版本1和版本2。这六个 Common Crawl 快照涵盖了2016年至2021年(每个快照包含17亿至34亿份文档)。对于拥有超过1000个锚文本的文档,随机抽取了1000个锚文本,而对于少于1000个锚文本的文档,则包含了所有锚文本(这种抽样方法使得版本1中94%的文档和版本2中97%的文档的所有锚文本都被包含)。总体上,MS MARCO Anchor Text 2022 数据集为版本1的1,703,834份文档和版本2的4,821,244份文档提供了锚文本。
数据集版本
- 版本1: 1,703,834份文档
- 版本2: 4,821,244份文档
数据集格式
- 清洗版本: 可在 ir_datasets、Zenodo 和 Hugging Face 获取。
- 原始数据集: 包含额外信息和所有提取锚文本的元数据(约100GB),可在 Hugging Face 和 files.webis.de 获取。
引用
@InProceedings{froebe:2022a, address = {Berlin Heidelberg New York}, author = {Maik Fr{"o}be and Sebastian G{"u}nther and Maximilian Probst and Martin Potthast and Matthias Hagen}, booktitle = {Advances in Information Retrieval. 44th European Conference on IR Research (ECIR 2022)}, editor = {Matthias Hagen and Suzan Verberne and Craig Macdonald and Christin Seifert and Krisztian Balog and Kjetil N{o}rv {a}g and Vinay Setty}, month = apr, publisher = {Springer}, series = {Lecture Notes in Computer Science}, site = {Stavanger, Norway}, title = {{The Power of Anchor Text in the Neural Retrieval Era}}, year = 2022 }



