five

kiyoung2/aistage-mrc

收藏
Hugging Face2021-11-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kiyoung2/aistage-mrc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于机器阅读理解任务,包含了多个版本的更新记录,主要涉及数据增强技术的应用(如Back Translation、AEDA、pororo aug等)、特殊标记的添加和修正(如[TITLE]、[ANSWER]等),以及数据集的优化和错误修复。数据集分为训练集和验证集,适用于模型训练和评估。

该数据集用于机器阅读理解任务,包含了多个版本的更新记录,主要涉及数据增强技术的应用(如Back Translation、AEDA、pororo aug等)、特殊标记的添加和修正(如[TITLE]、[ANSWER]等),以及数据集的优化和错误修复。数据集分为训练集和验证集,适用于模型训练和评估。
提供机构:
kiyoung2
原始信息汇总

数据集版本信息概述

v4.1.1

  • 数据集来源:v3.2.3数据集(train_dataset_aug)
  • 修改内容:添加标点符号
  • 存储位置:train_aug_punctuation
  • 修复问题:v4.1.0中的错误

v4.1.0

  • 数据集来源:v3.2.2数据集(train_dataset_aug)
  • 修改内容:添加标点符号
  • 存储位置:train_data_aug
  • 存在问题:answers标签错误

v4.0.1

  • 修改内容:添加标点符号
  • 存储位置:未指定
  • 特点:answers类型正常

v4.0.0

  • 修改内容:添加标点符号
  • 存储位置:仅train
  • 存在问题:answers类型错误

v3.2.3

  • 修改内容:修正v3.2.2中的[ANSWER]位置错误

v3.2.2

  • 修改内容:从v3.2.1中移除特殊标记[TITLE]

v3.2.1

  • 修改内容:在v3.2.0中添加特殊标记[ANSWER]

v3.2.0

  • 修改内容:在v1.3.1中添加特殊标记[TITLE]和#

v3.1.0

  • 修改内容:在v3.0.0的基础上,在问题后添加由NER模型识别的实体词

v3.0.0

  • 修改内容:在v1.0.0的基础上,添加answer和sentence split标记

v2.1.1

  • 修改内容:将v2.1.0与v3.2.3的增强数据集合并
  • 存储位置:bt_context_extractive_final文件夹

v2.1.0

  • 修改内容:为extractive模型进行pororo上下文增强
  • 存储位置:context_bt_for_extracive文件夹

v2.0.1

  • 修改内容:从v2.0.0中移除上下文中answer受损的数据

v2.0.0

  • 修改内容:添加了채은님的上下文反向翻译数据集

v1.6.4

  • 修改内容:调整train_dataset_curri文件夹内的结构

v1.6.3

  • 修改内容:在v1.6.2中添加了train_dataset_curri文件夹,按样本评分分为level0至level3

v1.6.2

  • 修改内容:在v1.6.1中向train_dataset文件夹添加了train_mask_2和train_hard_mask数据

v1.6.1

  • 修改内容:在v1.6.0中根据context长度添加了curriculum-learning数据集

v1.6.0

  • 修改内容:在v1.3.2中向train_dataset文件夹添加了不同排列比率(0.1, 0.2, 0.4)的句子排列数据

v1.5.0

  • 修改内容:在v1.4.1中添加了混淆词和日期信息的Masking数据集

v1.4.4

  • 修改内容:在v1.4.1中合并并随机合并了增强数据集(包括train和valid pororo ver1)

v1.4.3

  • 修改内容:在v1.4.1中合并并随机合并了增强数据集(不包括train和valid pororo ver1)

v1.4.2

  • 修改内容:在v1.4.1中在问题后添加了由NER模型识别的实体词

v1.4.1

  • 修改内容:根据대웅님提供的问类型,将问题从7个增加到45个,并应用pororo aug ver2

v1.3.2

  • 修改内容:在v1.3.1中处理了train_dataset_aeda中缺失的预处理

v1.3.1

  • 修改内容:在v.1.3.0中添加了train_dataset_aug文件夹,包括去除问题调查、反向翻译、AEDA和pororo aug ver1的合并

v1.3.0

  • 修改内容:在v1.2.0中使用pororo aug增加了50,531条增强数据

v1.2.0

  • 修改内容:在v1.1.0中去除问题调查、反向翻译、AEDA增强(未应用于pororo aug)

v1.1.0

  • 修改内容:在v1.0.0中在问题后添加了由NER模型识别的实体词

v1.0.0

  • 修改内容:在v0.1.1中对上下文进行了预处理

v0.2.2

  • 修改内容:修正了train_dataset中的train和validation集中的问题及答案错误

v0.2.1

  • 修改内容:在train_pororo_aug和validation_pororo_aug中添加了相同的summary
  • 修改内容:修正了context_bullet中的错误(与context无关的句子生成错误)

v0.2.0

  • 修改内容:添加了대웅님的pororo上下文摘要数据集

v0.1.1

  • 修改内容:添加了영재님的pororo增强数据集
  • 修改内容:修正了train_dataset中的train和validation集中的问题及答案错误

v0.1.0

  • 修改内容:添加了영재님的pororo增强数据集

v0.0.0

  • 数据集来源:比赛提供的初始数据集
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作