fewshot-goes-multilingual/cs_squad-3.0
收藏Hugging Face2023-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fewshot-goes-multilingual/cs_squad-3.0
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于捷克维基百科文章的问答数据集,包含问题和答案。每个问题都有一个或多个答案,并且有一个作为证据的上下文部分。大多数答案是提取式的,即答案在上下文中以确切形式存在。数据集还包含一些是/否问题,答案形式略有变化,或用自己的话回答的情况。数据集包含训练集、验证集和测试集,分别有约6,250、570和850个例子。每个例子包含多个特征,如上下文、问题、答案列表、证据文本等。数据集是现有SQAD 3.0数据集的预处理和过滤版本,去除了原始数据集中答案通常出现在文章第一句的统计偏差。
提供机构:
fewshot-goes-multilingual
原始信息汇总
数据集概述
基本信息
- 名称: Czech Simple Question Answering Dataset
- 语言: 捷克语
- 许可证: LGPL-3.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 来源: 原始数据
- 标签: 捷克语问答, 维基百科问答
- 任务类别: 问答
- 任务ID: 抽取式问答
数据集描述
- 内容: 包含基于捷克语维基百科文章的问题和答案。
- 特点: 多数答案为抽取式,即答案在文本中以完全相同的形式存在。其他情况包括:
- 是/否问题
- 答案几乎与文本中的形式相同,但词形变化以适应问题
- 用自己的话回答(应罕见)
- 可回答性: 所有问题均可从上下文中找到答案,少数问题有多个答案。
数据集结构
- 示例数量:
- 训练集: 6,250
- 验证集: 570
- 测试集: 850
- 特征:
item_id: 字符串IDcontext: 包含答案的维基百科文章大块文本question: 字符串answers: 所有答案列表(字符串),多为长度1的列表evidence_text: 足以回答问题的上下文子串evidence_start: 上下文中的起始索引evidence_end: 上下文中的结束索引occurences: 答案在证据中的出现情况url: 维基百科文章链接original_article: 原始解析的维基百科文章question_type: 问题类型answer_type: 答案类型
数据集来源
- 原始数据: SQAD 3.0数据集
- 处理: 数据已预处理并转换为方便格式,过滤了统计偏差。
引用信息
- 作者: MedveĎ, Marek 和 Horák, Aleš
- 年份: 2019
- 许可证: GNU Library or "Lesser" General Public License 3.0 (LGPL-3.0)
- 链接: 原始数据集链接



