kiyoung2/aistage-mrc

Name: kiyoung2/aistage-mrc
Creator: kiyoung2
Published: 2021-11-04 06:32:08
License: 暂无描述

Hugging Face2021-11-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kiyoung2/aistage-mrc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于机器阅读理解任务，包含了多个版本的更新记录，主要涉及数据增强技术的应用（如Back Translation、AEDA、pororo aug等）、特殊标记的添加和修正（如[TITLE]、[ANSWER]等），以及数据集的优化和错误修复。数据集分为训练集和验证集，适用于模型训练和评估。

提供机构：

kiyoung2

原始信息汇总

数据集版本信息概述

v4.1.1

数据集来源：v3.2.3数据集（train_dataset_aug）
修改内容：添加标点符号
存储位置：train_aug_punctuation
修复问题：v4.1.0中的错误

v4.1.0

数据集来源：v3.2.2数据集（train_dataset_aug）
修改内容：添加标点符号
存储位置：train_data_aug
存在问题：answers标签错误

v4.0.1

修改内容：添加标点符号
存储位置：未指定
特点：answers类型正常

v4.0.0

修改内容：添加标点符号
存储位置：仅train
存在问题：answers类型错误

v3.2.3

修改内容：修正v3.2.2中的[ANSWER]位置错误

v3.2.2

修改内容：从v3.2.1中移除特殊标记[TITLE]

v3.2.1

修改内容：在v3.2.0中添加特殊标记[ANSWER]

v3.2.0

修改内容：在v1.3.1中添加特殊标记[TITLE]和#

v3.1.0

修改内容：在v3.0.0的基础上，在问题后添加由NER模型识别的实体词

v3.0.0

修改内容：在v1.0.0的基础上，添加answer和sentence split标记

v2.1.1

修改内容：将v2.1.0与v3.2.3的增强数据集合并
存储位置：bt_context_extractive_final文件夹

v2.1.0

修改内容：为extractive模型进行pororo上下文增强
存储位置：context_bt_for_extracive文件夹

v2.0.1

修改内容：从v2.0.0中移除上下文中answer受损的数据

v2.0.0

修改内容：添加了채은님的上下文反向翻译数据集

v1.6.4

修改内容：调整train_dataset_curri文件夹内的结构

v1.6.3

修改内容：在v1.6.2中添加了train_dataset_curri文件夹，按样本评分分为level0至level3

v1.6.2

修改内容：在v1.6.1中向train_dataset文件夹添加了train_mask_2和train_hard_mask数据

v1.6.1

修改内容：在v1.6.0中根据context长度添加了curriculum-learning数据集

v1.6.0

修改内容：在v1.3.2中向train_dataset文件夹添加了不同排列比率（0.1, 0.2, 0.4）的句子排列数据

v1.5.0

修改内容：在v1.4.1中添加了混淆词和日期信息的Masking数据集

v1.4.4

修改内容：在v1.4.1中合并并随机合并了增强数据集（包括train和valid pororo ver1）

v1.4.3

修改内容：在v1.4.1中合并并随机合并了增强数据集（不包括train和valid pororo ver1）

v1.4.2

修改内容：在v1.4.1中在问题后添加了由NER模型识别的实体词

v1.4.1

修改内容：根据대웅님提供的问类型，将问题从7个增加到45个，并应用pororo aug ver2

v1.3.2

修改内容：在v1.3.1中处理了train_dataset_aeda中缺失的预处理

v1.3.1

修改内容：在v.1.3.0中添加了train_dataset_aug文件夹，包括去除问题调查、反向翻译、AEDA和pororo aug ver1的合并

v1.3.0

修改内容：在v1.2.0中使用pororo aug增加了50,531条增强数据

v1.2.0

修改内容：在v1.1.0中去除问题调查、反向翻译、AEDA增强（未应用于pororo aug）

v1.1.0

修改内容：在v1.0.0中在问题后添加了由NER模型识别的实体词

v1.0.0

修改内容：在v0.1.1中对上下文进行了预处理

v0.2.2

修改内容：修正了train_dataset中的train和validation集中的问题及答案错误

v0.2.1

修改内容：在train_pororo_aug和validation_pororo_aug中添加了相同的summary
修改内容：修正了context_bullet中的错误（与context无关的句子生成错误）

v0.2.0

修改内容：添加了대웅님的pororo上下文摘要数据集

v0.1.1

修改内容：添加了영재님的pororo增强数据集
修改内容：修正了train_dataset中的train和validation集中的问题及答案错误

v0.1.0

修改内容：添加了영재님的pororo增强数据集

v0.0.0

数据集来源：比赛提供的初始数据集

5,000+

优质数据集

54 个

任务类型

进入经典数据集