five

webis/ms-marco-anchor-text

收藏
Hugging Face2022-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/webis/ms-marco-anchor-text
下载链接
链接失效反馈
官方服务:
资源简介:
Webis MS MARCO Anchor Text 2022数据集通过从六个Common Crawl快照中提取锚文本来丰富MS MARCO文档集合的版本1和版本2。这六个Common Crawl快照涵盖了2016年至2021年的数据,每个快照包含17亿至34亿个文档。对于每个文档,如果其锚文本超过1000个,则随机抽取1000个;如果少于1000个,则全部保留。该数据集为版本1的1,703,834个文档和版本2的4,821,244个文档提供了锚文本。清理后的数据集可在ir_datasets、Zenodo和Hugging Face平台上获取,原始数据集和元数据也可在Hugging Face和files.webis.de上获取。
提供机构:
webis
原始信息汇总

Webis MS MARCO Anchor Text 2022 数据集

概述

Webis MS MARCO Anchor Text 2022 数据集通过从六个 Common Crawl 快照中提取的锚文本,丰富了 MS MARCO 文档集合的版本1和版本2。这六个 Common Crawl 快照涵盖了2016年至2021年(每个快照包含17亿至34亿份文档)。对于拥有超过1000个锚文本的文档,随机抽取了1000个锚文本,而对于少于1000个锚文本的文档,则包含了所有锚文本(这种抽样方法使得版本1中94%的文档和版本2中97%的文档的所有锚文本都被包含)。总体上,MS MARCO Anchor Text 2022 数据集为版本1的1,703,834份文档和版本2的4,821,244份文档提供了锚文本。

数据集版本

  • 版本1: 1,703,834份文档
  • 版本2: 4,821,244份文档

数据集格式

引用

@InProceedings{froebe:2022a, address = {Berlin Heidelberg New York}, author = {Maik Fr{"o}be and Sebastian G{"u}nther and Maximilian Probst and Martin Potthast and Matthias Hagen}, booktitle = {Advances in Information Retrieval. 44th European Conference on IR Research (ECIR 2022)}, editor = {Matthias Hagen and Suzan Verberne and Craig Macdonald and Christin Seifert and Krisztian Balog and Kjetil N{o}rv {a}g and Vinay Setty}, month = apr, publisher = {Springer}, series = {Lecture Notes in Computer Science}, site = {Stavanger, Norway}, title = {{The Power of Anchor Text in the Neural Retrieval Era}}, year = 2022 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作