GEM/squad_v2
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/squad_v2
下载链接
链接失效反馈官方服务:
资源简介:
SQuAD2.0是一个用于测试系统在阅读理解任务中表现的数据集,特别是当问题无法根据提供的段落回答时,系统应能够选择不回答。该数据集还用于问题生成任务,即从输入文本生成类似SQuAD的问题。数据集包含训练、验证和测试三个部分,主要用于评估模型的F1分数。数据集的语言为英语,许可证为cc-by-sa-4.0。
提供机构:
GEM
原始信息汇总
数据集概述
数据集基本信息
- 名称: squad_v2
- 语言: 英语
- 许可证: Creative Commons Attribution Share Alike 4.0 International (cc-by-sa-4.0)
- 任务类别: 问题生成
- 数据来源: 原始数据
- 注释创建者: 众包
- 多语言性: 未知
- 大小类别: 未知
数据集描述
- 目的: SQuAD2.0旨在测试系统不仅能够回答阅读理解问题,还能在无法根据提供的段落回答问题时选择不回答。
- 评估指标: F1分数用于评估模型在排行榜上的表现。
- 使用场景: 在GEM中,该数据集用于问题生成任务,模型需要从输入文本生成类似SQuAD的问题。
数据集结构
- 数据字段:
id: 字符串类型gem_id: 字符串类型title: 字符串类型context: 字符串类型question: 字符串类型answers: 字典类型,包含:text: 字符串类型answer_start: 整数类型
- 数据分割: 原始SQuAD2.0数据集包含训练和验证分割。GEM版本中,训练数据被进一步分割为训练和测试集。
数据集在GEM中的应用
- GEM中的修改: GEM版本的数据集进行了修改,包括数据和分割的调整。
- GEM中的额外分割: GEM提供了额外的分割,即将原始训练数据分割为训练和测试集。
数据集的维护与使用
- 维护计划: 原始数据集没有维护计划。
- 使用注意事项: 数据集可能包含社会偏见,使用时需谨慎考虑。



