Monsef/simple-squad
收藏Hugging Face2024-05-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Monsef/simple-squad
下载链接
链接失效反馈官方服务:
资源简介:
这是SQuAD v1数据集的简化版本。修改包括:仅提取训练序列到序列模型所需的列(上下文、问题和答案);预处理文本以仅包含英文字母和一些基本标点符号;将标点符号与相邻单词分离;移除长度超过175个标记的上下文(这移除了大约20%的原始数据集);移除长度超过30个标记的问题和答案(这移除了大约140个原始数据集的例子);添加三个额外的列以显示每个上下文、问题和答案的字数。
这是SQuAD v1数据集的简化版本。修改包括:仅提取训练序列到序列模型所需的列(上下文、问题和答案);预处理文本以仅包含英文字母和一些基本标点符号;将标点符号与相邻单词分离;移除长度超过175个标记的上下文(这移除了大约20%的原始数据集);移除长度超过30个标记的问题和答案(这移除了大约140个原始数据集的例子);添加三个额外的列以显示每个上下文、问题和答案的字数。
提供机构:
Monsef
原始信息汇总
数据集概述
数据集名称
Simple SQuAD
数据集描述
Simple SQuAD 是 SQuAD v1 数据集的简化版本,主要进行了以下修改:
- 仅提取用于训练 seq2seq 模型的必要列(上下文、问题和答案)。
- 文本预处理,仅保留英文字母和一些基本标点符号。
- 标点符号与相邻单词分离。
- 移除上下文长度超过 175 个令牌的记录(约占原数据集的 20%)。
- 移除问题和答案长度超过 30 个令牌的记录(约占原数据集的 140 个例子)。
- 添加三个额外列,显示每个上下文、问题和答案的单词计数。
数据集属性
- 许可证: MIT
- 任务类别: 问答
- 语言: 英语
- 数据集大小: 10K<n<100K



