five

ltg/norquad

收藏
Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ltg/norquad
下载链接
链接失效反馈
官方服务:
资源简介:
NorQuAD是第一个挪威语的问答数据集,专门用于机器阅读理解任务。数据集包含4,752个手动创建的问答对,来源于挪威语维基百科和新闻文章。数据集分为训练集、验证集和测试集,分别包含3808、472和472个样本。数据集的创建过程包括文本选择、问答对收集和人工验证。注释工作由两名挪威语母语的硕士生完成,并使用了Haystack注释工具。数据集旨在用于NLP模型的开发和基准测试。

NorQuAD是第一个挪威语的问答数据集,专门用于机器阅读理解任务。数据集包含4,752个手动创建的问答对,来源于挪威语维基百科和新闻文章。数据集分为训练集、验证集和测试集,分别包含3808、472和472个样本。数据集的创建过程包括文本选择、问答对收集和人工验证。注释工作由两名挪威语母语的硕士生完成,并使用了Haystack注释工具。数据集旨在用于NLP模型的开发和基准测试。
提供机构:
ltg
原始信息汇总

数据集概述

数据集描述

NorQuAD 是首个用于机器阅读理解的挪威语问答数据集,由挪威语从头创建。该数据集包含 4,752 个手动创建的问答对。

数据来源

数据集包含从两个数据源提取的挪威语问答对:

  • Wikipedia:从挪威语 Wikipedia 中抽取的 872 篇文章。
  • 新闻:从挪威新闻数据集 Norsk Aviskorpus 中抽取的文章。

数据集结构

数据实例

json { "id": "1", "context": "This is a test context", "question": "This is a question", "answers": { "answer_start": [1], "text": ["This is an answer"] } }

数据字段

  • id: 字符串类型。
  • context: 字符串类型。
  • question: 字符串类型。
  • answers: 字典类型,包含:
    • text: 字符串类型。
    • answer_start: 32位整数类型。

数据集划分

  • 训练集: 3808 个样本。
  • 验证集: 472 个样本。
  • 测试集: 472 个样本。

数据集创建

数据收集和处理

  • Wikipedia: 从“推荐”和“特色”部分抽取 269 篇文章,其余 603 篇随机抽取。仅选择“介绍”部分进行标注。
  • 新闻: 从 Norsk Aviskorpus 抽取 1000 篇文章,选择至少包含 300 字的文章。

标注过程

  • 标注工具: 使用 Haystack 标注工具。
  • 标注人员: 两名挪威语母语的 NLP 硕士生。
  • 标注数量: 共处理 353 篇 Wikipedia 文章和 403 篇新闻文章,创建了 4,752 个问答对。

许可证

CC0-1.0

任务类别

  • 问答

语言

  • 挪威语 Bokmål

数据集大小

  • 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作