TurkuNLP/register_oscar
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/register_oscar
下载链接
链接失效反馈官方服务:
资源简介:
Register Oscar数据集是一个多语言数据集,包含来自Oscar数据集的语言,并带有注册信息标签。数据集包含8种主要级别的注册类型:叙事(NA)、信息描述(IN)、意见(OP)、互动讨论(ID)、操作指南/指令(HI)、信息说服(IP)、抒情(LY)和口语(SP)。数据集支持多种语言,包括阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印尼语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中文。
提供机构:
TurkuNLP
原始信息汇总
数据集概述
数据集总结
- 名称: Register Oscar 数据集
- 类型: 多语言数据集
- 内容: 包含来自Oscar数据集的语言,并标记了注册信息。
- 注册类型: 共8种主要级别注册类型,包括叙事(NA)、信息描述(IN)、观点(OP)、互动讨论(ID)、操作指南/指令(HI)、信息劝说(IP)、抒情(LY)、口语(SP)。
支持的任务
- 数据集支持的任务未明确列出,但提到了使用多语言注册识别模型进行自动注册(类型)识别。
语言
- 包含语言: 阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印度尼西亚语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中国语。
数据集结构
数据实例
-
示例:
{"id": "0", "labels": ["NA"], "text": "Zarif: Iran inajua mpango wa Saudia wa kufanya mauaji ya kigaidi dhidi ya maafisa wa ngazi za juu wa Iran "}
数据字段
- id: 文档的唯一ID(来自Oscar数据集)
- labels: 分配给文本的标签列表
- text: 文档的原始文本(与Oscar数据集中的显示相同)



