TurkuNLP/squad_v2_fi
收藏Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/squad_v2_fi
下载链接
链接失效反馈官方服务:
资源简介:
这是一个芬兰语的SQuAD问答数据集,是基于DeepL机器翻译的英语SQuAD2.0数据集。它结合了SQuAD1.1中的10万个问题和超过5万个由众包工人编写的不可回答问题,这些问题设计得看起来像可回答的问题。要在SQuAD2.0上表现良好,系统不仅需要在可能时回答问题,还需要确定段落中是否没有支持答案的内容,并决定不回答。
This is a Finnish SQuAD question answering dataset derived from the English SQuAD 2.0 dataset machine-translated via DeepL. It integrates 100,000 questions from SQuAD 1.1 and over 50,000 unanswerable questions crafted by crowd workers, which are designed to mimic answerable questions. To achieve strong performance on SQuAD 2.0, a system must not only answer questions when feasible, but also identify whether no supporting answer content exists within the corresponding paragraph and refrain from providing a response.
提供机构:
TurkuNLP
原始信息汇总
数据集概述
本数据集为芬兰语SQuAD问答数据集,基于DeepL机器翻译自英语SQuAD2.0数据集。SQuAD2.0结合了SQuAD1.1中的100,000个问题以及超过50,000个由众包工作者对抗性撰写的不可回答问题,这些问题设计得与可回答问题相似。在SQuAD2.0中表现良好,系统不仅需要在可能的情况下回答问题,还需要确定何时段落不支持任何答案并选择不回答。
数据字段
数据集中的所有分割具有相同的数据字段:
id: 字符串类型。title: 字符串类型。context: 字符串类型。question: 字符串类型。answers: 字典类型,包含:text: 字符串类型。answer_start: 整数类型。texts: 字符串类型。starts: 整数类型。
数据分割
| 名称 | 训练集 | 验证集 |
|---|---|---|
| squad_v2 | 130319 | 11873 |
评估结果
使用TurkuNLP/bert-base-finnish-cased-v1进行抽取式问答微调的结果:
| 数据集 | F1 分数 |
|---|---|
| TurkuNLP/squad_v2_fi | 73.66 |
| ilmariky/SQuAD_v2_fi | 61.87 |
使用注意事项
由于DeepL的使用条款,本数据集不得用于任何机器翻译工作,包括机器翻译系统开发和评估。一般建议不要将原始英语数据与翻译数据配对使用,除非进行与机器翻译无关的研究,以免违反使用条款。
许可信息
本数据集内容遵循Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)许可。数据集内容的版权属于原始版权持有者。



