five

susumu2357/squad_v2_sv

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/susumu2357/squad_v2_sv
下载链接
链接失效反馈
官方服务:
资源简介:
SQuAD_v2_sv是SQuAD2.0的瑞典语版本,通过Google Translate API自动翻译而成。翻译过程中存在一些挑战,例如答案在上下文中的起始和结束位置可能会改变,以及独立翻译的答案可能不包含在翻译后的上下文中。数据集的结构包括id、title、context、question和answers等字段。数据集的大小为10.09 MB,生成的数据集大小为113.27 MB,总磁盘使用量为123.36 MB。数据集的语言为瑞典语,任务类别为问答任务。
提供机构:
susumu2357
原始信息汇总

数据集描述

数据集概述

SQuAD_v2_sv 是一个瑞典语版本的 SQuAD2.0 数据集。该数据集通过使用 Google Translate API 自动翻译得到,但由于以下原因,翻译过程并不直接:

  • 翻译后,答案在上下文中的起始和结束位置可能会发生变化。
  • 如果上下文和答案独立翻译,翻译后的答案可能不在翻译后的上下文中。

具体处理这些困难的方法在 GitHub 仓库中有详细描述。

支持的任务

更多信息需要

语言

瑞典语

数据集结构

数据字段

所有拆分中的数据字段相同。

squad_v2

  • id: 一个 string 特征。
  • title: 一个 string 特征。
  • context: 一个 string 特征。
  • question: 一个 string 特征。
  • answers: 一个包含以下内容的字典特征:
    • text: 一个 string 特征。
    • answer_start: 一个 int32 特征。

数据拆分样本大小

名称 训练集 验证集
squad_v2_Sv 113898 11156

数据集创建

策划理由

更多信息需要

源数据

更多信息需要

注释

更多信息需要

个人和敏感信息

更多信息需要

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

更多信息需要

引用信息

@misc{squad_v2_sv, author = {Susumu Okazawa}, title = {Swedish translation of SQuAD2.0}, year = {2021}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/susumu2357/SQuAD_v2_sv}} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作