TurkuNLP/register_oscar

Name: TurkuNLP/register_oscar
Creator: TurkuNLP
Published: 2023-09-25 11:30:50
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TurkuNLP/register_oscar

下载链接

链接失效反馈

官方服务：

资源简介：

Register Oscar数据集是一个多语言数据集，包含来自Oscar数据集的语言，并带有注册信息标签。数据集包含8种主要级别的注册类型：叙事（NA）、信息描述（IN）、意见（OP）、互动讨论（ID）、操作指南/指令（HI）、信息说服（IP）、抒情（LY）和口语（SP）。数据集支持多种语言，包括阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印尼语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中文。

提供机构：

TurkuNLP

原始信息汇总

数据集概述

数据集总结

名称: Register Oscar 数据集
类型: 多语言数据集
内容: 包含来自Oscar数据集的语言，并标记了注册信息。
注册类型: 共8种主要级别注册类型，包括叙事(NA)、信息描述(IN)、观点(OP)、互动讨论(ID)、操作指南/指令(HI)、信息劝说(IP)、抒情(LY)、口语(SP)。

支持的任务

数据集支持的任务未明确列出，但提到了使用多语言注册识别模型进行自动注册（类型）识别。

语言

包含语言: 阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印度尼西亚语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中国语。

数据集结构

数据实例

示例:

{"id": "0", "labels": ["NA"], "text": "Zarif: Iran inajua mpango wa Saudia wa kufanya mauaji ya kigaidi dhidi ya maafisa wa ngazi za juu wa Iran "}

数据字段

id: 文档的唯一ID（来自Oscar数据集）
labels: 分配给文本的标签列表
text: 文档的原始文本（与Oscar数据集中的显示相同）

5,000+

优质数据集

54 个

任务类型

进入经典数据集