ltg/norquad
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ltg/norquad
下载链接
链接失效反馈官方服务:
资源简介:
NorQuAD是第一个挪威语的问答数据集,专门用于机器阅读理解任务。数据集包含4,752个手动创建的问答对,来源于挪威语维基百科和新闻文章。数据集分为训练集、验证集和测试集,分别包含3808、472和472个样本。数据集的创建过程包括文本选择、问答对收集和人工验证。注释工作由两名挪威语母语的硕士生完成,并使用了Haystack注释工具。数据集旨在用于NLP模型的开发和基准测试。
NorQuAD是第一个挪威语的问答数据集,专门用于机器阅读理解任务。数据集包含4,752个手动创建的问答对,来源于挪威语维基百科和新闻文章。数据集分为训练集、验证集和测试集,分别包含3808、472和472个样本。数据集的创建过程包括文本选择、问答对收集和人工验证。注释工作由两名挪威语母语的硕士生完成,并使用了Haystack注释工具。数据集旨在用于NLP模型的开发和基准测试。
提供机构:
ltg
原始信息汇总
数据集概述
数据集描述
NorQuAD 是首个用于机器阅读理解的挪威语问答数据集,由挪威语从头创建。该数据集包含 4,752 个手动创建的问答对。
数据来源
数据集包含从两个数据源提取的挪威语问答对:
- Wikipedia:从挪威语 Wikipedia 中抽取的 872 篇文章。
- 新闻:从挪威新闻数据集 Norsk Aviskorpus 中抽取的文章。
数据集结构
数据实例
json { "id": "1", "context": "This is a test context", "question": "This is a question", "answers": { "answer_start": [1], "text": ["This is an answer"] } }
数据字段
- id: 字符串类型。
- context: 字符串类型。
- question: 字符串类型。
- answers: 字典类型,包含:
- text: 字符串类型。
- answer_start: 32位整数类型。
数据集划分
- 训练集: 3808 个样本。
- 验证集: 472 个样本。
- 测试集: 472 个样本。
数据集创建
数据收集和处理
- Wikipedia: 从“推荐”和“特色”部分抽取 269 篇文章,其余 603 篇随机抽取。仅选择“介绍”部分进行标注。
- 新闻: 从 Norsk Aviskorpus 抽取 1000 篇文章,选择至少包含 300 字的文章。
标注过程
- 标注工具: 使用 Haystack 标注工具。
- 标注人员: 两名挪威语母语的 NLP 硕士生。
- 标注数量: 共处理 353 篇 Wikipedia 文章和 403 篇新闻文章,创建了 4,752 个问答对。
许可证
CC0-1.0
任务类别
- 问答
语言
- 挪威语 Bokmål
数据集大小
- 1K<n<10K



