edwardgiamphy/Noisy-MSMARCO-Passage-Ranking

Name: edwardgiamphy/Noisy-MSMARCO-Passage-Ranking
Creator: edwardgiamphy
Published: 2023-06-26 16:38:38
License: 暂无描述

Hugging Face2023-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/edwardgiamphy/Noisy-MSMARCO-Passage-Ranking

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是MS-Marco-Passage Ranking数据集的72个噪声版本，包含三种噪声类型（插入、删除、替换），两种错误分布（Batch 1中错误集中在少数单词，Batch 2中错误更均匀分布在单词之间），以及12种不同的噪声强度（CER从3%到36%，间隔为3%）。数据集基于MS-Marco-passagetest2020-top1000构建，并使用nlpaug库进行噪声增强。

提供机构：

edwardgiamphy

原始信息汇总

数据集概述

数据集描述

该数据集包含72个版本的MS-Marco-Passage Ranking数据集，这些版本包含了三种噪声类型（插入、删除、替换）。
数据集分为两个错误分布批次：
- Batch 1：错误集中在文本中的少数单词。
- Batch 2：错误更均匀地分布在单词之间。
噪声强度从3%到36%不等，间隔为3%。

原始数据集

使用的原始数据集是MS-Marco-passagetest2020-top1000。
原始数据集链接：https://msmarco.blob.core.windows.net/msmarcoranking/msmarco-passagetest2020-top1000.tsv.gz

数据集构建

该数据集基于MS MARCO Passage ranking的测试集构建。
使用nlpaug库（https://github.com/makcedward/nlpaug）进行数据集文本的噪声增强。

参考文献

原始数据集相关论文：
- 标题：Ms marco: A human generated machine reading comprehension dataset
- 作者：Bajaj, Payal 等人
- 期刊：arXiv preprint arXiv:1611.09268
- 年份：2016

5,000+

优质数据集

54 个

任务类型

进入经典数据集