SentiNews 1.0, AutoSentiNews 1.0, JOB 1.0

github2024-05-05 更新2024-05-31 收录

下载链接：

https://github.com/19Joey85/Sentiment-annotated-news-corpus-and-sentiment-lexicon-in-Slovene

下载链接

链接失效反馈

官方服务：

资源简介：

该工作涉及构建手动情感标注的斯洛文尼亚新闻语料库（SentiNews 1.0）、自动情感标注的斯洛文尼亚新闻语料库（AutoSentiNews 1.0）和斯洛文尼亚情感词典（JOB 1.0）。SentiNews 1.0包含10,427篇新闻文档，由2至6名标注者独立标注为负面、中性和正面，使用五级李克特量表。AutoSentiNews 1.0包含256,567篇文档，发布于2007年9月1日至2016年1月31日。JOB 1.0词典包含25,524个词条，基于AFINN模型扩展了情感评分。

This work involves the construction of three linguistic resources: a manually sentiment-annotated Slovenian news corpus (SentiNews 1.0), an automatically sentiment-annotated Slovenian news corpus (AutoSentiNews 1.0), and a Slovenian sentiment lexicon (JOB 1.0). SentiNews 1.0 comprises 10,427 news documents, which were independently labeled by 2 to 6 annotators as negative, neutral, or positive using a five-point Likert scale. AutoSentiNews 1.0 contains 256,567 news documents spanning the period from September 1, 2007 to January 31, 2016. The JOB 1.0 lexicon includes 25,524 entries, with its sentiment scores extended based on the AFINN model.

创建时间：

2017-05-11

原始信息汇总

数据集概述

数据集名称

Sentiment annotated news corpus and sentiment lexicon in Slovene

数据集作者

Jože Bučar
Faculty of Information Studies Novo mesto
Contact: joze.bucar@gmail.com

数据集内容

Manually sentiment annotated Slovenian news corpus (SentiNews 1.0)
Automatically sentiment annotated Slovenian news corpus (AutoSentiNews 1.0)
Slovene sentiment lexicon (JOB 1.0)

数据集构建工具

Web crawlers written in R language

数据来源

Slovenian news texts from portals: 24ur, Dnevnik, Finance, Rtvslo, Žurnal24

数据集规模

AutoSentiNews 1.0: 256,567 documents (1 September 2007 - 31 January 2016)
SentiNews 1.0: 10,427 documents (1 September 2007 - 31 December 2013)
Slovene sentiment lexicon (JOB 1.0): 25,524 headwords

数据集标注

SentiNews 1.0: Annotated by 2-6 annotators independently on three levels (document, paragraph, sentence) using a five-level Likert scale
AutoSentiNews 1.0: Remaining documents annotated automatically

数据集文件类型

.txt, .R, .zip

数据集编码

UTF-8

数据集发布年份

2017-05-09

数据集版权

Available for non-commercial scientific and research purposes only
Some components under Creative Commons copyright license Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

数据集引用

Citation details provided for scientific use

搜集汇总

数据集介绍

构建方式

SentiNews 1.0, AutoSentiNews 1.0, 和 JOB 1.0 数据集的构建过程融合了手动和自动化的情感标注技术。首先，通过R语言编写的网络爬虫从五个斯洛文尼亚新闻门户（24ur, Dnevnik, Finance, Rtvslo, 和 Žurnal24）获取政治、商业、经济和金融内容的新闻文本。SentiNews 1.0 包含10,427篇由2至6名标注者独立标注的新闻，使用五级Likert量表在文档、段落和句子级别上进行情感分类。AutoSentiNews 1.0 则包含256,567篇新闻，其中246,140篇通过自动标注完成。JOB 1.0 情感词典基于斯洛文尼亚词汇列表扩展，结合AFINN模型赋予每个词条从-5到+5的情感评分。

特点

该数据集的显著特点在于其多层次的情感标注和广泛的应用领域。SentiNews 1.0 提供了文档、段落和句子级别的情感标注，增强了数据的多维度分析能力。AutoSentiNews 1.0 的大规模自动标注使得数据集在处理大量文本时具有高效性。JOB 1.0 情感词典不仅涵盖了广泛的词汇，还提供了精细的情感评分，为情感分析提供了坚实的基础。此外，数据集的开放性和共享性通过Creative Commons版权许可得以体现，促进了学术研究和社区贡献。

使用方法

使用SentiNews 1.0, AutoSentiNews 1.0, 和 JOB 1.0 数据集时，研究者可以首先下载相关数据文件，并根据需要选择手动或自动标注的数据进行分析。对于情感分析任务，可以直接利用JOB 1.0词典进行词汇级别的情感评分，或结合SentiNews 1.0的多层次标注进行更复杂的情感挖掘。数据集的R语言爬虫工具也可供研究者参考，以扩展或定制自己的数据获取流程。所有使用需遵循Creative Commons Attribution-ShareAlike 4.0 International许可协议，确保正确引用和共享研究成果。

背景与挑战

背景概述

在自然语言处理领域，情感分析一直是研究的热点之一。SentiNews 1.0、AutoSentiNews 1.0和JOB 1.0数据集由Jože Bučar领导的Faculty of Information Studies Novo mesto团队创建，旨在提供斯洛文尼亚语新闻文本的情感标注和情感词典。这些数据集的构建始于2007年，涵盖了从2007年9月1日至2016年1月31日期间发布的256,567篇新闻文档，涉及政治、商业、经济和金融内容。SentiNews 1.0通过2至6名标注者独立标注了10,427篇文档，而AutoSentiNews 1.0则通过自动标注方法处理了剩余的246,140篇新闻。JOB 1.0词典则包含了25,524个斯洛文尼亚语词条，并基于AFINN模型赋予了情感评分。这些数据集的发布极大地推动了斯洛文尼亚语情感分析研究的发展，并为相关领域的学者提供了宝贵的资源。

当前挑战

尽管SentiNews 1.0、AutoSentiNews 1.0和JOB 1.0数据集在斯洛文尼亚语情感分析领域取得了显著进展，但仍面临若干挑战。首先，手动标注过程耗时且成本高昂，尽管SentiNews 1.0通过多标注者独立标注提高了标注质量，但仍存在标注一致性问题。其次，自动标注方法依赖于预训练模型，可能存在泛化能力不足的问题，尤其是在处理特定领域或新出现的语言现象时。此外，情感词典的构建需要大量的语言学知识和数据支持，JOB 1.0词典虽然提供了丰富的情感评分，但其覆盖范围和准确性仍有待进一步提升。最后，数据集的版权和使用限制也可能限制其在商业应用中的推广和使用。

常用场景

经典使用场景

在情感分析领域，SentiNews 1.0、AutoSentiNews 1.0和JOB 1.0数据集被广泛用于训练和验证情感分类模型。这些数据集包含了斯洛文尼亚语新闻文本的情感标注，涵盖了政治、商业、经济和金融等多个领域。通过这些数据集，研究者可以开发和评估情感分析算法，从而实现对新闻文本情感倾向的自动识别和分类。

解决学术问题

这些数据集解决了情感分析领域中斯洛文尼亚语情感标注数据稀缺的问题，为研究者提供了丰富的标注资源。通过这些数据集，研究者可以深入探讨情感分类模型的性能和鲁棒性，推动情感分析技术在多语言环境下的应用和发展。此外，JOB 1.0情感词典的构建也为情感分析提供了重要的基础资源，有助于提升情感分类的准确性和可靠性。

衍生相关工作

基于这些数据集，研究者们开发了多种情感分析模型和工具，如基于深度学习的情感分类模型和情感词典扩展方法。此外，这些数据集还激发了多语言情感分析的研究，推动了情感分析技术在不同语言和文化背景下的应用和扩展。相关工作还包括情感分析在社交媒体、客户评论等领域的应用研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集