cjvt/sentinews
收藏Hugging Face2022-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/sentinews
下载链接
链接失效反馈官方服务:
资源简介:
SentiNews是一个斯洛文尼亚语的情感分类数据集,包含由两到六名注释者手动注释的新闻文章。注释分为三个粒度:文档级(10,427个文档)、段落级(89,999个段落)和句子级(168,899个句子)。数据集支持情感分类任务,分为三类:负面、中性和正面。
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称
SentiNews
数据集描述
SentiNews是一个斯洛文尼亚语的情感分类数据集,包含由两到六名注释者手动注释情感的新闻文章。该数据集在三个粒度级别上进行注释:
- 文档级(配置
document_level,10,427个文档) - 段落级(配置
paragraph_level,89,999个段落) - 句子级(配置
sentence_level,168,899个句子)
支持的任务
情感分类,包含三个类别(负面、中性、正面)。
语言
斯洛文尼亚语
数据集结构
数据实例
一个句子级配置的样本实例:
{ nid: 2, content: Vilo Prešeren je na dražbi ministrstva za obrambo kupilo nepremičninsko podjetje Condor Real s sedežem v Lescah., sentiment: neutral, pid: 1, sid: 1 }
数据字段
所有三个配置的数据字段相似,唯一区别在于ID。
nid: 新闻文章(文档)的唯一ID,类型为uint16。content: 新闻文章内容,类型为字符串。sentiment: 实例的情感。pid: 当前新闻文章内段落的连续编号,非唯一(存在于配置paragraph_level和sentence_level中),类型为uint8。sid: 当前段落内句子的连续编号,非唯一(存在于配置sentence_level中),类型为uint8。
附加信息
数据集创建者
Jože Bučar, Martin Žnidaršič, Janez Povh.
许可信息
CC BY-SA 4.0
引用信息
@article{buvcar2018annotated, title={Annotated news corpora and a lexicon for sentiment analysis in Slovene}, author={Bu{v{c}}ar, Jo{v{z}}e and {v{Z}}nidar{v{s}}i{v{c}}, Martin and Povh, Janez}, journal={Language Resources and Evaluation}, volume={52}, number={3}, pages={895--919}, year={2018}, publisher={Springer} }



