ltg/norquad

Hugging Face2024-02-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ltg/norquad

下载链接

链接失效反馈

官方服务：

资源简介：

NorQuAD是第一个挪威语的问答数据集，专门用于机器阅读理解任务。数据集包含4,752个手动创建的问答对，来源于挪威语维基百科和新闻文章。数据集分为训练集、验证集和测试集，分别包含3808、472和472个样本。数据集的创建过程包括文本选择、问答对收集和人工验证。注释工作由两名挪威语母语的硕士生完成，并使用了Haystack注释工具。数据集旨在用于NLP模型的开发和基准测试。

提供机构：

ltg

原始信息汇总

数据集概述

数据集描述

NorQuAD 是首个用于机器阅读理解的挪威语问答数据集，由挪威语从头创建。该数据集包含 4,752 个手动创建的问答对。

数据来源

数据集包含从两个数据源提取的挪威语问答对：

Wikipedia：从挪威语 Wikipedia 中抽取的 872 篇文章。
新闻：从挪威新闻数据集 Norsk Aviskorpus 中抽取的文章。

数据集结构

数据实例

json { "id": "1", "context": "This is a test context", "question": "This is a question", "answers": { "answer_start": [1], "text": ["This is an answer"] } }

数据字段

id: 字符串类型。
context: 字符串类型。
question: 字符串类型。
answers: 字典类型，包含：
- text: 字符串类型。
- answer_start: 32位整数类型。

数据集划分

训练集: 3808 个样本。
验证集: 472 个样本。
测试集: 472 个样本。

数据集创建

数据收集和处理

Wikipedia: 从“推荐”和“特色”部分抽取 269 篇文章，其余 603 篇随机抽取。仅选择“介绍”部分进行标注。
新闻: 从 Norsk Aviskorpus 抽取 1000 篇文章，选择至少包含 300 字的文章。

标注过程

标注工具: 使用 Haystack 标注工具。
标注人员: 两名挪威语母语的 NLP 硕士生。
标注数量: 共处理 353 篇 Wikipedia 文章和 403 篇新闻文章，创建了 4,752 个问答对。

许可证

CC0-1.0

任务类别

问答

语言

挪威语 Bokmål

数据集大小

1K<n<10K

5,000+

优质数据集

54 个

任务类型

进入经典数据集