five

squad_v2_fi

收藏
魔搭社区2025-12-05 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/TurkuNLP/squad_v2_fi
下载链接
链接失效反馈
官方服务:
资源简介:
### Dataset Summary This is a Finnish SQuAD question answering dataset. It is a DeepL -based machine translation of the English SQuAD2.0 dataset which combines the 100,000 questions in SQuAD1.1 with over 50,000 unanswerable questions written adversarially by crowdworkers to look similar to answerable ones. To do well on SQuAD2.0, systems must not only answer questions when possible, but also determine when no answer is supported by the paragraph and abstain from answering. ### Data Fields The data fields are the same among all splits. #### Example Data ``` { "title": "Victoria_(Australia)", "paragraphs": [ { "qas": [ { "question": "Millainen talous Victoriassa on?", "id": "570d2417fed7b91900d45c3d", "answers": [ { "text": "monipuolinen", "answer_start": 26, "texts": [ "monipuolinen" ], "starts": [ 26 ] }, { "text": "hyvin monipuolinen", "answer_start": 20, "texts": [ "hyvin ", "monipuolinen" ], "starts": [ 20, 26 ] }, { "text": "hyvin monipuolinen", "answer_start": 20, "texts": [ "hyvin ", "monipuolinen" ], "starts": [ 20, 26 ] } ], "is_impossible": false } ], "context": "Victorian talous on hyvin monipuolinen: palvelualat, kuten rahoitus- ja kiinteistöpalvelut, terveydenhuolto, koulutus, tukkukauppa, vähittäiskauppa, majoitus- ja ravitsemistoiminta ja teollisuus muodostavat suurimman osan työllisyydestä. Victorian osavaltion bruttokansantuote on Australian toiseksi suurin, vaikka Victoria on asukaskohtaisen bruttokansantuotteen osalta neljäntenä, koska sen kaivostoiminta on vähäistä. Kulttuurin alalla Melbournessa on useita museoita, taidegallerioita ja teattereita, ja sitä kutsutaan myös \"Australian urheilupääkaupungiksi\". Melbournen krikettikenttä (Melbourne Cricket Ground) on Australian suurin stadion, ja siellä järjestettiin vuoden 1956 kesäolympialaiset ja vuoden 2006 Kansainyhteisön kisat. Kenttää pidetään myös australialaisen kriketin ja australialaisen jalkapallon \"henkisenä kotina\", ja se isännöi vuosittain Australian jalkapalloliigan (AFL) suurta loppuottelua, johon osallistuu yleensä yli 95 000 ihmistä. Victoriaan kuuluu kahdeksan julkista yliopistoa, joista vanhin, Melbournen yliopisto, on perustettu vuonna 1853." } ] } ``` #### squad_v2 - `id`: a `string` feature. - `title`: a `string` feature. - `context`: a `string` feature. - `question`: a `string` feature. - `answers`: a dictionary feature containing: - `text`: a `string` feature. - `answer_start`: a `int32` feature. - `texts`: a `string` feature. - `starts`: a `int32` feature. ### Data Splits | name | train | validation | | -------- | -----: | ---------: | | squad_v2 | 130319 | 11873 | ### Evaluation Results Results from fine-tuning [TurkuNLP/bert-base-finnish-cased-v1](ttps://huggingface.co/TurkuNLP/bert-base-finnish-cased-v1) for extractive question answering. | dataset | F1 | | -------------------- | ----: | | TurkuNLP/squad_v2_fi | 73.66 | | ilmariky/SQuAD_v2_fi | 61.87 | ### Considerations for Using the Data Due to DeepL terms and conditions, this dataset **must not be used for any machine translation work**, namely machine translation system development and evaluation of any kind. In general, we wish you do not pair the original English data with the translations except when working on research unrelated to machine translation, so as not to infringe on the terms and conditions. ### Licensing Information Contents of this repository are distributed under the [Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)](https://creativecommons.org/licenses/by-sa/4.0/). Copyright of the dataset contents belongs to the original copyright holders.

### 数据集概述 本数据集为芬兰语版斯坦福问答数据集(SQuAD)。它是基于DeepL的机器翻译版本,源自英文SQuAD2.0数据集——该数据集整合了SQuAD1.1中的10万个问题,以及由众包工作者以对抗性方式编写的5万余个无法作答的问题,此类问题伪装得与可作答问题高度相似。若要在SQuAD2.0任务中取得优异表现,模型不仅需要在可行时回答问题,还需判断段落中是否存在可支撑答案的信息,并在无对应答案时拒绝作答。 ### 数据字段 所有数据拆分下的字段均保持一致。 #### 示例数据 { "title": "Victoria_(Australia)", "paragraphs": [ { "qas": [ { "question": "Millainen talous Victoriassa on?", "id": "570d2417fed7b91900d45c3d", "answers": [ { "text": "monipuolinen", "answer_start": 26, "texts": [ "monipuolinen" ], "starts": [ 26 ] }, { "text": "hyvin monipuolinen", "answer_start": 20, "texts": [ "hyvin ", "monipuolinen" ], "starts": [ 20, 26 ] }, { "text": "hyvin monipuolinen", "answer_start": 20, "texts": [ "hyvin ", "monipuolinen" ], "starts": [ 20, 26 ] } ], "is_impossible": false } ], "context": "Victorian talous on hyvin monipuolinen: palvelualat, kuten rahoitus- ja kiinteistöpalvelut, terveydenhuolto, koulutus, tukkukauppa, vähittäiskauppa, majoitus- ja ravitsemistoiminta ja teollisuus muodostavat suurimman osan työllisyydestä. Victorian osavaltion bruttokansantuote on Australian toiseksi suurin, vaikka Victoria on asukaskohtaisen bruttokansantuotteen osalta neljäntenä, koska sen kaivostoiminta on vähäistä. Kulttuurin alalla Melbournessa on useita museoita, taidegallerioita ja teattereita, ja sitä kutsutaan myös "Australian urheilupääkaupungiksi". Melbournen krikettikenttä (Melbourne Cricket Ground) on Australian suurin stadion, ja siellä järjestettiin vuoden 1956 kesäolympialaiset ja vuoden 2006 Kansainyhteisön kisat. Kenttää pidetään myös australialaisen kriketin ja australialaisen jalkapallon "henkisenä kotina", ja se isännöi vuosittain Australian jalkapalloliigan (AFL) suurta loppuottelua, johon osallistuu yleensä yli 95 000 ihmistä. Victoriaan kuuluu kahdeksan julkista yliopistoa, joista vanhin, Melbournen yliopisto, on perustettu vuonna 1853." } ] } #### squad_v2 - `id`:字符串类型特征。 - `title`:字符串类型特征。 - `context`:字符串类型特征。 - `question`:字符串类型特征。 - `answers`:字典类型特征,包含以下子字段: - `text`:字符串类型特征。 - `answer_start`:int32类型特征。 - `texts`:字符串类型特征。 - `starts`:int32类型特征。 ### 数据拆分 | 拆分名称 | 训练集 | 验证集 | | -------- | ------: | -----: | | squad_v2 | 130319 | 11873 | ### 评测结果 针对抽取式问答任务微调[TurkuNLP/bert-base-finnish-cased-v1](https://huggingface.co/TurkuNLP/bert-base-finnish-cased-v1)得到的评测结果如下: | 评测数据集 | F1 | | ------------------------- | -----: | | TurkuNLP/squad_v2_fi | 73.66 | | ilmariky/SQuAD_v2_fi | 61.87 | ### 数据使用注意事项 根据DeepL的服务条款,本数据集**严禁用于任何机器翻译相关工作**,包括各类机器翻译系统的开发与评估。一般而言,除非开展与机器翻译无关的研究,否则请勿将原始英文数据集与本翻译版本配对使用,以免违反服务条款。 ### 许可信息 本仓库内容采用[知识共享署名-相同方式共享4.0国际许可协议(CC BY-SA 4.0)](https://creativecommons.org/licenses/by-sa/4.0/)进行分发。数据集内容的版权归原版权持有者所有。
提供机构:
maas
创建时间:
2025-08-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作