kiyoung2/aistage-mrc
收藏Hugging Face2021-11-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kiyoung2/aistage-mrc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于机器阅读理解任务,包含了多个版本的更新记录,主要涉及数据增强技术的应用(如Back Translation、AEDA、pororo aug等)、特殊标记的添加和修正(如[TITLE]、[ANSWER]等),以及数据集的优化和错误修复。数据集分为训练集和验证集,适用于模型训练和评估。
该数据集用于机器阅读理解任务,包含了多个版本的更新记录,主要涉及数据增强技术的应用(如Back Translation、AEDA、pororo aug等)、特殊标记的添加和修正(如[TITLE]、[ANSWER]等),以及数据集的优化和错误修复。数据集分为训练集和验证集,适用于模型训练和评估。
提供机构:
kiyoung2
原始信息汇总
数据集版本信息概述
v4.1.1
- 数据集来源:v3.2.3数据集(train_dataset_aug)
- 修改内容:添加标点符号
- 存储位置:train_aug_punctuation
- 修复问题:v4.1.0中的错误
v4.1.0
- 数据集来源:v3.2.2数据集(train_dataset_aug)
- 修改内容:添加标点符号
- 存储位置:train_data_aug
- 存在问题:answers标签错误
v4.0.1
- 修改内容:添加标点符号
- 存储位置:未指定
- 特点:answers类型正常
v4.0.0
- 修改内容:添加标点符号
- 存储位置:仅train
- 存在问题:answers类型错误
v3.2.3
- 修改内容:修正v3.2.2中的[ANSWER]位置错误
v3.2.2
- 修改内容:从v3.2.1中移除特殊标记[TITLE]
v3.2.1
- 修改内容:在v3.2.0中添加特殊标记[ANSWER]
v3.2.0
- 修改内容:在v1.3.1中添加特殊标记[TITLE]和#
v3.1.0
- 修改内容:在v3.0.0的基础上,在问题后添加由NER模型识别的实体词
v3.0.0
- 修改内容:在v1.0.0的基础上,添加answer和sentence split标记
v2.1.1
- 修改内容:将v2.1.0与v3.2.3的增强数据集合并
- 存储位置:bt_context_extractive_final文件夹
v2.1.0
- 修改内容:为extractive模型进行pororo上下文增强
- 存储位置:context_bt_for_extracive文件夹
v2.0.1
- 修改内容:从v2.0.0中移除上下文中answer受损的数据
v2.0.0
- 修改内容:添加了채은님的上下文反向翻译数据集
v1.6.4
- 修改内容:调整train_dataset_curri文件夹内的结构
v1.6.3
- 修改内容:在v1.6.2中添加了train_dataset_curri文件夹,按样本评分分为level0至level3
v1.6.2
- 修改内容:在v1.6.1中向train_dataset文件夹添加了train_mask_2和train_hard_mask数据
v1.6.1
- 修改内容:在v1.6.0中根据context长度添加了curriculum-learning数据集
v1.6.0
- 修改内容:在v1.3.2中向train_dataset文件夹添加了不同排列比率(0.1, 0.2, 0.4)的句子排列数据
v1.5.0
- 修改内容:在v1.4.1中添加了混淆词和日期信息的Masking数据集
v1.4.4
- 修改内容:在v1.4.1中合并并随机合并了增强数据集(包括train和valid pororo ver1)
v1.4.3
- 修改内容:在v1.4.1中合并并随机合并了增强数据集(不包括train和valid pororo ver1)
v1.4.2
- 修改内容:在v1.4.1中在问题后添加了由NER模型识别的实体词
v1.4.1
- 修改内容:根据대웅님提供的问类型,将问题从7个增加到45个,并应用pororo aug ver2
v1.3.2
- 修改内容:在v1.3.1中处理了train_dataset_aeda中缺失的预处理
v1.3.1
- 修改内容:在v.1.3.0中添加了train_dataset_aug文件夹,包括去除问题调查、反向翻译、AEDA和pororo aug ver1的合并
v1.3.0
- 修改内容:在v1.2.0中使用pororo aug增加了50,531条增强数据
v1.2.0
- 修改内容:在v1.1.0中去除问题调查、反向翻译、AEDA增强(未应用于pororo aug)
v1.1.0
- 修改内容:在v1.0.0中在问题后添加了由NER模型识别的实体词
v1.0.0
- 修改内容:在v0.1.1中对上下文进行了预处理
v0.2.2
- 修改内容:修正了train_dataset中的train和validation集中的问题及答案错误
v0.2.1
- 修改内容:在train_pororo_aug和validation_pororo_aug中添加了相同的summary
- 修改内容:修正了context_bullet中的错误(与context无关的句子生成错误)
v0.2.0
- 修改内容:添加了대웅님的pororo上下文摘要数据集
v0.1.1
- 修改内容:添加了영재님的pororo增强数据集
- 修改内容:修正了train_dataset中的train和validation集中的问题及答案错误
v0.1.0
- 修改内容:添加了영재님的pororo增强数据集
v0.0.0
- 数据集来源:比赛提供的初始数据集



