NbAiLab/norwegian-paws-x
收藏Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NbAiLab/norwegian-paws-x
下载链接
链接失效反馈官方服务:
资源简介:
Norwegian PAWS-X数据集是PAWS-X数据集的扩展版本,专门针对挪威语(包括Bokmål和Nynorsk)进行机器翻译。该数据集用于语义相似性分类任务,包含一对挪威语句子及其是否为释义对的二元标签。数据集分为训练集、验证集和测试集,保留了原始PAWS的标签,这些标签是通过专家和机器生成的注释创建的。该数据集的创建旨在促进挪威语的多语言和跨语言研究,特别是在释义识别任务中的应用。
提供机构:
NbAiLab
原始信息汇总
数据集概述
数据集名称
- 名称: NbAiLab/norwegian-paws-x
- 别名: Norwegian PAWS-X
数据集描述
数据集摘要
- 描述: Norwegian PAWS-X是PAWS-X数据集的一个扩展,专门针对挪威语(Bokmål和Nynorsk)。该数据集包含机器翻译的原始PAWS-X数据,用于挪威语的两种标准。
- 目的: 扩展PAWS释义识别任务到挪威语,促进多语言和跨语言的释义识别研究。
语言
- 包含语言:
- 挪威语Bokmål (
nb) - 挪威语Nynorsk (
nn)
- 挪威语Bokmål (
数据集结构
数据实例
- 结构: 每个实例包含一对挪威语句子及一个二元标签,指示句子是否为彼此的释义。
数据字段
id: 示例的标识符(int32)sentence1: 第一句挪威语句子(字符串)sentence2: 第二句挪威语句子(字符串)label: 二元标签,1表示句子为释义,0表示不是(类别标签:0, 1)
数据分割
- 分割: 数据集分为训练、验证和测试集,具体实例数量遵循原始PAWS-X数据集的划分。
数据集创建
来源数据
- 来源: 原始数据为六种语言的人工翻译PAWS对。挪威PAWS-X数据集中的对被翻译成挪威语Bokmål和Nynorsk,使用FAIR的No Language Left Behind 3.3B参数模型。
注释
- 类型: 数据集保留原始PAWS标签,由专家和机器生成的注释组成。
个人和敏感信息
- 信息: 数据集中无已知的个人或敏感信息。
使用数据集的考虑
社会影响
- 影响: 该数据集有助于推动挪威语NLP技术的发展。
其他已知限制
- 限制: 可能存在与机器翻译质量相关的问题。
许可证信息
- 许可证: CC BY 4.0



