five

fewshot-goes-multilingual/cs_squad-3.0

收藏
Hugging Face2023-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fewshot-goes-multilingual/cs_squad-3.0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于捷克维基百科文章的问答数据集,包含问题和答案。每个问题都有一个或多个答案,并且有一个作为证据的上下文部分。大多数答案是提取式的,即答案在上下文中以确切形式存在。数据集还包含一些是/否问题,答案形式略有变化,或用自己的话回答的情况。数据集包含训练集、验证集和测试集,分别有约6,250、570和850个例子。每个例子包含多个特征,如上下文、问题、答案列表、证据文本等。数据集是现有SQAD 3.0数据集的预处理和过滤版本,去除了原始数据集中答案通常出现在文章第一句的统计偏差。
提供机构:
fewshot-goes-multilingual
原始信息汇总

数据集概述

基本信息

  • 名称: Czech Simple Question Answering Dataset
  • 语言: 捷克语
  • 许可证: LGPL-3.0
  • 多语言性: 单语种
  • 大小: 1K<n<10K
  • 来源: 原始数据
  • 标签: 捷克语问答, 维基百科问答
  • 任务类别: 问答
  • 任务ID: 抽取式问答

数据集描述

  • 内容: 包含基于捷克语维基百科文章的问题和答案。
  • 特点: 多数答案为抽取式,即答案在文本中以完全相同的形式存在。其他情况包括:
    • 是/否问题
    • 答案几乎与文本中的形式相同,但词形变化以适应问题
    • 用自己的话回答(应罕见)
  • 可回答性: 所有问题均可从上下文中找到答案,少数问题有多个答案。

数据集结构

  • 示例数量:
    • 训练集: 6,250
    • 验证集: 570
    • 测试集: 850
  • 特征:
    • item_id: 字符串ID
    • context: 包含答案的维基百科文章大块文本
    • question: 字符串
    • answers: 所有答案列表(字符串),多为长度1的列表
    • evidence_text: 足以回答问题的上下文子串
    • evidence_start: 上下文中的起始索引
    • evidence_end: 上下文中的结束索引
    • occurences: 答案在证据中的出现情况
    • url: 维基百科文章链接
    • original_article: 原始解析的维基百科文章
    • question_type: 问题类型
    • answer_type: 答案类型

数据集来源

  • 原始数据: SQAD 3.0数据集
  • 处理: 数据已预处理并转换为方便格式,过滤了统计偏差。

引用信息

  • 作者: MedveĎ, Marek 和 Horák, Aleš
  • 年份: 2019
  • 许可证: GNU Library or "Lesser" General Public License 3.0 (LGPL-3.0)
  • 链接: 原始数据集链接
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作