five

NbAiLab/norwegian-paws-x

收藏
Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NbAiLab/norwegian-paws-x
下载链接
链接失效反馈
官方服务:
资源简介:
Norwegian PAWS-X数据集是PAWS-X数据集的扩展版本,专门针对挪威语(包括Bokmål和Nynorsk)进行机器翻译。该数据集用于语义相似性分类任务,包含一对挪威语句子及其是否为释义对的二元标签。数据集分为训练集、验证集和测试集,保留了原始PAWS的标签,这些标签是通过专家和机器生成的注释创建的。该数据集的创建旨在促进挪威语的多语言和跨语言研究,特别是在释义识别任务中的应用。
提供机构:
NbAiLab
原始信息汇总

数据集概述

数据集名称

  • 名称: NbAiLab/norwegian-paws-x
  • 别名: Norwegian PAWS-X

数据集描述

数据集摘要

  • 描述: Norwegian PAWS-X是PAWS-X数据集的一个扩展,专门针对挪威语(Bokmål和Nynorsk)。该数据集包含机器翻译的原始PAWS-X数据,用于挪威语的两种标准。
  • 目的: 扩展PAWS释义识别任务到挪威语,促进多语言和跨语言的释义识别研究。

语言

  • 包含语言:
    • 挪威语Bokmål (nb)
    • 挪威语Nynorsk (nn)

数据集结构

数据实例

  • 结构: 每个实例包含一对挪威语句子及一个二元标签,指示句子是否为彼此的释义。

数据字段

  • id: 示例的标识符(int32)
  • sentence1: 第一句挪威语句子(字符串)
  • sentence2: 第二句挪威语句子(字符串)
  • label: 二元标签,1表示句子为释义,0表示不是(类别标签:0, 1)

数据分割

  • 分割: 数据集分为训练、验证和测试集,具体实例数量遵循原始PAWS-X数据集的划分。

数据集创建

来源数据

  • 来源: 原始数据为六种语言的人工翻译PAWS对。挪威PAWS-X数据集中的对被翻译成挪威语Bokmål和Nynorsk,使用FAIR的No Language Left Behind 3.3B参数模型。

注释

  • 类型: 数据集保留原始PAWS标签,由专家和机器生成的注释组成。

个人和敏感信息

  • 信息: 数据集中无已知的个人或敏感信息。

使用数据集的考虑

社会影响

  • 影响: 该数据集有助于推动挪威语NLP技术的发展。

其他已知限制

  • 限制: 可能存在与机器翻译质量相关的问题。

许可证信息

  • 许可证: CC BY 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作