five

edwardgiamphy/Noisy-MSMARCO-Passage-Ranking

收藏
Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/edwardgiamphy/Noisy-MSMARCO-Passage-Ranking
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是MS-Marco-Passage Ranking数据集的72个噪声版本,包含三种噪声类型(插入、删除、替换),两种错误分布(Batch 1中错误集中在少数单词,Batch 2中错误更均匀分布在单词之间),以及12种不同的噪声强度(CER从3%到36%,间隔为3%)。数据集基于MS-Marco-passagetest2020-top1000构建,并使用nlpaug库进行噪声增强。

该数据集是MS-Marco-Passage Ranking数据集的72个噪声版本,包含三种噪声类型(插入、删除、替换),两种错误分布(Batch 1中错误集中在少数单词,Batch 2中错误更均匀分布在单词之间),以及12种不同的噪声强度(CER从3%到36%,间隔为3%)。数据集基于MS-Marco-passagetest2020-top1000构建,并使用nlpaug库进行噪声增强。
提供机构:
edwardgiamphy
原始信息汇总

数据集概述

数据集描述

  • 该数据集包含72个版本的MS-Marco-Passage Ranking数据集,这些版本包含了三种噪声类型(插入、删除、替换)。
  • 数据集分为两个错误分布批次:
    • Batch 1:错误集中在文本中的少数单词。
    • Batch 2:错误更均匀地分布在单词之间。
  • 噪声强度从3%到36%不等,间隔为3%。

原始数据集

  • 使用的原始数据集是MS-Marco-passagetest2020-top1000。
  • 原始数据集链接:https://msmarco.blob.core.windows.net/msmarcoranking/msmarco-passagetest2020-top1000.tsv.gz

数据集构建

  • 该数据集基于MS MARCO Passage ranking的测试集构建。
  • 使用nlpaug库(https://github.com/makcedward/nlpaug)进行数据集文本的噪声增强。

参考文献

  • 原始数据集相关论文:
    • 标题:Ms marco: A human generated machine reading comprehension dataset
    • 作者:Bajaj, Payal 等人
    • 期刊:arXiv preprint arXiv:1611.09268
    • 年份:2016
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作