kuznetsoffandrey/sberquad
收藏Hugging Face2023-08-29 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/kuznetsoffandrey/sberquad
下载链接
链接失效反馈官方服务:
资源简介:
SberQuAD(Sber问答数据集)是一个阅读理解数据集,由众包工作者基于一组维基百科文章提出问题,每个问题的答案是对应文章中的一段文本,或者问题可能无法回答。该数据集是俄语的,最初在2017年Sberbank数据科学之旅中提出。数据集的结构包括id、title、context、question和answers等字段,数据被分为训练集、验证集和测试集。
SberQuAD(Sber问答数据集)是一个阅读理解数据集,由众包工作者基于一组维基百科文章提出问题,每个问题的答案是对应文章中的一段文本,或者问题可能无法回答。该数据集是俄语的,最初在2017年Sberbank数据科学之旅中提出。数据集的结构包括id、title、context、question和answers等字段,数据被分为训练集、验证集和测试集。
提供机构:
kuznetsoffandrey
原始信息汇总
数据集概述
数据集名称
- 名称: SberQuAD
- 别名: sberquad
数据集描述
- 类型: 阅读理解数据集
- 内容: 包含由众包工作者提出的问题,这些问题基于一系列维基百科文章,答案为文章中的文本片段或无法回答的问题。
- 语言: 俄语
数据集结构
- 特征:
- id: int32类型
- title: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answers: 字典类型,包含:
- text: 字符串类型
- answer_start: int32类型
- 分割:
- 训练集: 45328个样本
- 验证集: 5036个样本
- 测试集: 23936个样本
数据集创建
- 语言创建者: 发现与众包
- 注释创建者: 众包
- 源数据: 原始数据
许可证
- 许可证类型: 未知
多语言性
- 多语言性: 单语种
大小分类
- 大小: 10K<n<100K
任务类别
- 任务类别: 问答
- 任务ID: 抽取式问答



