five

Monsef/simple-squad

收藏
Hugging Face2024-05-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Monsef/simple-squad
下载链接
链接失效反馈
官方服务:
资源简介:
这是SQuAD v1数据集的简化版本。修改包括:仅提取训练序列到序列模型所需的列(上下文、问题和答案);预处理文本以仅包含英文字母和一些基本标点符号;将标点符号与相邻单词分离;移除长度超过175个标记的上下文(这移除了大约20%的原始数据集);移除长度超过30个标记的问题和答案(这移除了大约140个原始数据集的例子);添加三个额外的列以显示每个上下文、问题和答案的字数。

这是SQuAD v1数据集的简化版本。修改包括:仅提取训练序列到序列模型所需的列(上下文、问题和答案);预处理文本以仅包含英文字母和一些基本标点符号;将标点符号与相邻单词分离;移除长度超过175个标记的上下文(这移除了大约20%的原始数据集);移除长度超过30个标记的问题和答案(这移除了大约140个原始数据集的例子);添加三个额外的列以显示每个上下文、问题和答案的字数。
提供机构:
Monsef
原始信息汇总

数据集概述

数据集名称

Simple SQuAD

数据集描述

Simple SQuAD 是 SQuAD v1 数据集的简化版本,主要进行了以下修改:

  • 仅提取用于训练 seq2seq 模型的必要列(上下文、问题和答案)。
  • 文本预处理,仅保留英文字母和一些基本标点符号。
  • 标点符号与相邻单词分离。
  • 移除上下文长度超过 175 个令牌的记录(约占原数据集的 20%)。
  • 移除问题和答案长度超过 30 个令牌的记录(约占原数据集的 140 个例子)。
  • 添加三个额外列,显示每个上下文、问题和答案的单词计数。

数据集属性

  • 许可证: MIT
  • 任务类别: 问答
  • 语言: 英语
  • 数据集大小: 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作