five

cjvt/sentinews

收藏
Hugging Face2022-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/sentinews
下载链接
链接失效反馈
官方服务:
资源简介:
SentiNews是一个斯洛文尼亚语的情感分类数据集,包含由两到六名注释者手动注释的新闻文章。注释分为三个粒度:文档级(10,427个文档)、段落级(89,999个段落)和句子级(168,899个句子)。数据集支持情感分类任务,分为三类:负面、中性和正面。
提供机构:
cjvt
原始信息汇总

数据集概述

数据集名称

SentiNews

数据集描述

SentiNews是一个斯洛文尼亚语的情感分类数据集,包含由两到六名注释者手动注释情感的新闻文章。该数据集在三个粒度级别上进行注释:

  • 文档级(配置document_level,10,427个文档)
  • 段落级(配置paragraph_level,89,999个段落)
  • 句子级(配置sentence_level,168,899个句子)

支持的任务

情感分类,包含三个类别(负面、中性、正面)。

语言

斯洛文尼亚语

数据集结构

数据实例

一个句子级配置的样本实例:

{ nid: 2, content: Vilo Prešeren je na dražbi ministrstva za obrambo kupilo nepremičninsko podjetje Condor Real s sedežem v Lescah., sentiment: neutral, pid: 1, sid: 1 }

数据字段

所有三个配置的数据字段相似,唯一区别在于ID。

  • nid: 新闻文章(文档)的唯一ID,类型为uint16。
  • content: 新闻文章内容,类型为字符串。
  • sentiment: 实例的情感。
  • pid: 当前新闻文章内段落的连续编号,非唯一(存在于配置paragraph_levelsentence_level中),类型为uint8。
  • sid: 当前段落内句子的连续编号,非唯一(存在于配置sentence_level中),类型为uint8。

附加信息

数据集创建者

Jože Bučar, Martin Žnidaršič, Janez Povh.

许可信息

CC BY-SA 4.0

引用信息

@article{buvcar2018annotated, title={Annotated news corpora and a lexicon for sentiment analysis in Slovene}, author={Bu{v{c}}ar, Jo{v{z}}e and {v{Z}}nidar{v{s}}i{v{c}}, Martin and Povh, Janez}, journal={Language Resources and Evaluation}, volume={52}, number={3}, pages={895--919}, year={2018}, publisher={Springer} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作