susumu2357/squad_v2_sv
收藏Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/susumu2357/squad_v2_sv
下载链接
链接失效反馈官方服务:
资源简介:
SQuAD_v2_sv是SQuAD2.0的瑞典语版本,通过Google Translate API自动翻译而成。翻译过程中存在一些挑战,例如答案在上下文中的起始和结束位置可能会改变,以及独立翻译的答案可能不包含在翻译后的上下文中。数据集的结构包括id、title、context、question和answers等字段。数据集的大小为10.09 MB,生成的数据集大小为113.27 MB,总磁盘使用量为123.36 MB。数据集的语言为瑞典语,任务类别为问答任务。
提供机构:
susumu2357
原始信息汇总
数据集描述
数据集概述
SQuAD_v2_sv 是一个瑞典语版本的 SQuAD2.0 数据集。该数据集通过使用 Google Translate API 自动翻译得到,但由于以下原因,翻译过程并不直接:
- 翻译后,答案在上下文中的起始和结束位置可能会发生变化。
- 如果上下文和答案独立翻译,翻译后的答案可能不在翻译后的上下文中。
具体处理这些困难的方法在 GitHub 仓库中有详细描述。
支持的任务
语言
瑞典语
数据集结构
数据字段
所有拆分中的数据字段相同。
squad_v2
id: 一个string特征。title: 一个string特征。context: 一个string特征。question: 一个string特征。answers: 一个包含以下内容的字典特征:text: 一个string特征。answer_start: 一个int32特征。
数据拆分样本大小
| 名称 | 训练集 | 验证集 |
|---|---|---|
| squad_v2_Sv | 113898 | 11156 |
数据集创建
策划理由
源数据
注释
个人和敏感信息
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集策展人
许可信息
引用信息
@misc{squad_v2_sv, author = {Susumu Okazawa}, title = {Swedish translation of SQuAD2.0}, year = {2021}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/susumu2357/SQuAD_v2_sv}} }



