edwardgiamphy/Noisy-MSMARCO-Passage-Ranking
收藏Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/edwardgiamphy/Noisy-MSMARCO-Passage-Ranking
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是MS-Marco-Passage Ranking数据集的72个噪声版本,包含三种噪声类型(插入、删除、替换),两种错误分布(Batch 1中错误集中在少数单词,Batch 2中错误更均匀分布在单词之间),以及12种不同的噪声强度(CER从3%到36%,间隔为3%)。数据集基于MS-Marco-passagetest2020-top1000构建,并使用nlpaug库进行噪声增强。
该数据集是MS-Marco-Passage Ranking数据集的72个噪声版本,包含三种噪声类型(插入、删除、替换),两种错误分布(Batch 1中错误集中在少数单词,Batch 2中错误更均匀分布在单词之间),以及12种不同的噪声强度(CER从3%到36%,间隔为3%)。数据集基于MS-Marco-passagetest2020-top1000构建,并使用nlpaug库进行噪声增强。
提供机构:
edwardgiamphy
原始信息汇总
数据集概述
数据集描述
- 该数据集包含72个版本的MS-Marco-Passage Ranking数据集,这些版本包含了三种噪声类型(插入、删除、替换)。
- 数据集分为两个错误分布批次:
- Batch 1:错误集中在文本中的少数单词。
- Batch 2:错误更均匀地分布在单词之间。
- 噪声强度从3%到36%不等,间隔为3%。
原始数据集
- 使用的原始数据集是MS-Marco-passagetest2020-top1000。
- 原始数据集链接:https://msmarco.blob.core.windows.net/msmarcoranking/msmarco-passagetest2020-top1000.tsv.gz
数据集构建
- 该数据集基于MS MARCO Passage ranking的测试集构建。
- 使用nlpaug库(https://github.com/makcedward/nlpaug)进行数据集文本的噪声增强。
参考文献
- 原始数据集相关论文:
- 标题:Ms marco: A human generated machine reading comprehension dataset
- 作者:Bajaj, Payal 等人
- 期刊:arXiv preprint arXiv:1611.09268
- 年份:2016



