alexandrainst/scandi-qa

Name: alexandrainst/scandi-qa
Creator: alexandrainst
Published: 2023-01-16 13:51:25
License: 暂无描述

Hugging Face2023-01-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexandrainst/scandi-qa

下载链接

链接失效反馈

官方服务：

资源简介：

ScandiQA是一个包含丹麦语、挪威语和瑞典语的问题和答案的数据集。所有样本均来自Google搜索的大型问答数据集Natural Questions (NQ)。Scandinavian的问题和答案来自MKQA数据集，其中10,000个NQ样本被手动翻译成丹麦语、挪威语和瑞典语。然而，这并未包括翻译的上下文，阻碍了抽取式问答模型的训练。为了解决这个问题，数据集将NQ数据集与MKQA数据集合并，并从NQ数据集中提取上下文作为“长答案”，或者通过定位与问题具有最大余弦相似度且包含所需答案的段落来提取上下文。此外，MKQA数据集中的许多答案进行了“语言规范化”，例如所有日期答案都转换为“YYYY-MM-DD”格式，这意味着这些答案在大多数情况下不会出现在任何段落中。通过扩展MKQA答案，添加了合理的“答案候选”，即答案的轻微扰动或翻译。提取上下文后，使用DeepL翻译服务将其翻译为丹麦语和瑞典语，使用Google翻译服务将其翻译为挪威语。翻译后，确保Scandinavian答案确实出现在翻译后的上下文中。由于在“合并阶段”和“翻译阶段”都对MKQA样本进行了过滤，因此无法将10,000个样本完全转换为Scandinavian语言，而是每种语言大约得到8,000个样本。这些样本进一步分为训练、验证和测试集，后两者各包含大约750个样本。分割的方式使得每个分割中没有答案的样本比例大致相同。

提供机构：

alexandrainst

原始信息汇总

数据集概述

名称： ScandiQA

语言：

丹麦语 (da)
瑞典语 (sv)
挪威语 (no)

许可：

CC BY-SA 4.0

多语言性：

多语言

大小分类：

1K<n<10K

源数据集：

MKQA
Natural Questions

任务类别：

问答

任务ID：

extractive-qa

数据集详情

数据集总结： ScandiQA 是一个包含丹麦语、挪威语和瑞典语的问答数据集。所有样本源自 Natural Questions 数据集，该数据集来自 Google 搜索的大型问答数据集。ScandiQA 中的问题和答案来自 MKQA 数据集，其中 10,000 个 NQ 样本被手动翻译成丹麦语、挪威语和瑞典语。数据集通过合并 NQ 和 MKQA 数据集，并提取上下文，以支持训练抽取式问答模型。

支持的任务和排行榜： 该数据集旨在用于训练机器学习模型进行抽取式问答。目前没有活跃的排行榜。

数据集结构：

数据实例：
- 下载的数据集文件大小：69 MB
- 生成的数据集大小：67 MB
- 总磁盘使用量：136 MB
数据字段：
- example_id: int64
- question: string
- answer: string
- answer_start: int64
- context: string
- answer_en: string
- answer_start_en: int64
- context_en: string
- title_en: string
数据分割：

名称训练验证测试

da 6311 749 750

sv 6299 750 749

no 6314 749 750

数据集创建

来源数据： 数据集源自 Apple 的 MKQA 和 Google 的 Natural Questions 数据集。

许可证信息： 数据集根据 CC BY-SA 4.0 许可证授权。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

名称	训练	验证	测试
da	6311	749	750
sv	6299	750	749
no	6314	749	750