five

GEM/squad_v2

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/squad_v2
下载链接
链接失效反馈
官方服务:
资源简介:
SQuAD2.0是一个用于测试系统在阅读理解任务中表现的数据集,特别是当问题无法根据提供的段落回答时,系统应能够选择不回答。该数据集还用于问题生成任务,即从输入文本生成类似SQuAD的问题。数据集包含训练、验证和测试三个部分,主要用于评估模型的F1分数。数据集的语言为英语,许可证为cc-by-sa-4.0。
提供机构:
GEM
原始信息汇总

数据集概述

数据集基本信息

  • 名称: squad_v2
  • 语言: 英语
  • 许可证: Creative Commons Attribution Share Alike 4.0 International (cc-by-sa-4.0)
  • 任务类别: 问题生成
  • 数据来源: 原始数据
  • 注释创建者: 众包
  • 多语言性: 未知
  • 大小类别: 未知

数据集描述

  • 目的: SQuAD2.0旨在测试系统不仅能够回答阅读理解问题,还能在无法根据提供的段落回答问题时选择不回答。
  • 评估指标: F1分数用于评估模型在排行榜上的表现。
  • 使用场景: 在GEM中,该数据集用于问题生成任务,模型需要从输入文本生成类似SQuAD的问题。

数据集结构

  • 数据字段:
    • id: 字符串类型
    • gem_id: 字符串类型
    • title: 字符串类型
    • context: 字符串类型
    • question: 字符串类型
    • answers: 字典类型,包含:
      • text: 字符串类型
      • answer_start: 整数类型
  • 数据分割: 原始SQuAD2.0数据集包含训练和验证分割。GEM版本中,训练数据被进一步分割为训练和测试集。

数据集在GEM中的应用

  • GEM中的修改: GEM版本的数据集进行了修改,包括数据和分割的调整。
  • GEM中的额外分割: GEM提供了额外的分割,即将原始训练数据分割为训练和测试集。

数据集的维护与使用

  • 维护计划: 原始数据集没有维护计划。
  • 使用注意事项: 数据集可能包含社会偏见,使用时需谨慎考虑。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作