five

TurkuNLP/register_oscar

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/register_oscar
下载链接
链接失效反馈
官方服务:
资源简介:
Register Oscar数据集是一个多语言数据集,包含来自Oscar数据集的语言,并带有注册信息标签。数据集包含8种主要级别的注册类型:叙事(NA)、信息描述(IN)、意见(OP)、互动讨论(ID)、操作指南/指令(HI)、信息说服(IP)、抒情(LY)和口语(SP)。数据集支持多种语言,包括阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印尼语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中文。
提供机构:
TurkuNLP
原始信息汇总

数据集概述

数据集总结

  • 名称: Register Oscar 数据集
  • 类型: 多语言数据集
  • 内容: 包含来自Oscar数据集的语言,并标记了注册信息。
  • 注册类型: 共8种主要级别注册类型,包括叙事(NA)、信息描述(IN)、观点(OP)、互动讨论(ID)、操作指南/指令(HI)、信息劝说(IP)、抒情(LY)、口语(SP)。

支持的任务

  • 数据集支持的任务未明确列出,但提到了使用多语言注册识别模型进行自动注册(类型)识别。

语言

  • 包含语言: 阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印度尼西亚语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中国语。

数据集结构

数据实例

  • 示例:

    {"id": "0", "labels": ["NA"], "text": "Zarif: Iran inajua mpango wa Saudia wa kufanya mauaji ya kigaidi dhidi ya maafisa wa ngazi za juu wa Iran "}

数据字段

  • id: 文档的唯一ID(来自Oscar数据集)
  • labels: 分配给文本的标签列表
  • text: 文档的原始文本(与Oscar数据集中的显示相同)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作