five

AFINN-111

收藏
github2024-04-12 更新2024-05-31 收录
下载链接:
https://github.com/stdlib-js/datasets-afinn-111
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含2477个英语单词及其情感评分的列表,其中负向情感的词评分为-5到0,正向情感的词评分为0到5,中性词评分为0。

A list comprising 2477 English words along with their sentiment scores, where words with negative sentiment are scored from -5 to 0, those with positive sentiment from 0 to 5, and neutral words are scored 0.
创建时间:
2021-06-16
原始信息汇总

AFINN-111

概述

AFINN-111是一个包含2477个英语单词(及短语)的列表,这些单词根据情感极性(valence)进行评分。每个单词的评分范围从-5到5,其中负数表示负面情感,正数表示正面情感,0表示中性。

数据集内容

  • 单词数量:2477个
  • 单词特性
    • 包含拼写错误的单词
    • 所有单词均为小写
    • 单词可能包含数字、特殊字符(如n00b
    • 部分单词为短语,如cool stuff
    • 单词可能包含特殊字符,如cant stand中的撇号

使用方法

安装

bash npm install @stdlib/datasets-afinn-111

使用示例

javascript var afinn111 = require( @stdlib/datasets-afinn-111 );

var words = afinn111(); /* returns [ [abandon,-2], [abandoned,-2], [abandons,-2], ... ] */

注意事项

  • 数据集中的单词可能包含多种字符,包括数字和特殊符号。
  • 所有单词均为小写,包括短语和可能的拼写错误。

参考文献

  • Nielsen, Finn Årup. 2011. "A new ANEW: Evaluation of a word list for sentiment analysis in microblogs."
  • Hansen, Lars Kai, et al. 2011. "Good Friends, Bad News - Affect and Virality in Twitter."

许可证

数据集及其内容根据[Open Data Commons Attribution 1.0 License][odc-by-1.0]和[Creative Commons Attribution 4.0 International Public License][cc-by-4.0]授权。软件部分则根据[Apache License, Version 2.0][apache-license]授权。

搜集汇总
数据集介绍
main_image_url
构建方式
AFINN-111数据集通过精心挑选和评估2477个英语单词和短语,构建了一个情感评分列表。每个词条都被赋予一个情感值,范围从-5到5,其中负值表示负面情感,正值表示正面情感,0表示中性情感。数据集的构建考虑了社交媒体中常见的拼写错误、数字、短语、标点符号和特殊字符,确保其广泛适用性。
使用方法
AFINN-111数据集可以通过多种方式使用,包括直接调用JavaScript库或通过命令行接口进行操作。用户可以获取包含情感评分的单词列表,并将其转换为字典格式以便快速查找。数据集支持CSV和NDJSON格式输出,适用于不同的数据处理需求。
背景与挑战
背景概述
AFINN-111数据集是由Finn Årup Nielsen于2011年创建的,旨在为情感分析提供一个英语词汇的情感评分列表。该数据集包含了2477个英语单词和短语,每个词或短语都被赋予了一个情感值,范围从-5到5,其中负值表示负面情感,正值表示正面情感,0表示中性情感。AFINN-111数据集在社交媒体内容分析、情感计算和自然语言处理等领域具有广泛的应用,尤其是在微博客和社交网络的情感分析中,其影响力显著。
当前挑战
AFINN-111数据集在构建过程中面临了多个挑战。首先,如何准确地为每个单词或短语分配情感值是一个复杂的问题,尤其是在处理多义词和情感模糊的词汇时。其次,数据集中包含了拼写错误、含有数字和特殊字符的词汇,这些词汇在社交媒体中频繁出现,增加了情感分析的难度。此外,处理包含多个单词的短语时,如何保持情感评分的准确性也是一个挑战。这些挑战使得AFINN-111在实际应用中需要进一步的优化和校准。
常用场景
经典使用场景
AFINN-111数据集的经典使用场景主要集中在情感分析领域。该数据集包含了2477个英语单词和短语,每个词条都附带一个情感极性评分,范围从-5到5,分别代表负面情感和正面情感。研究人员和开发者可以利用这一数据集对文本进行情感分类,识别文本中的情感倾向,从而在社交媒体监控、产品评论分析、舆情监测等应用中发挥重要作用。
解决学术问题
AFINN-111数据集解决了情感分析中的关键学术问题,特别是在细粒度情感分类和情感极性量化方面。通过提供明确的情感评分,该数据集使得研究人员能够更精确地评估文本的情感倾向,避免了传统情感分析中可能出现的模糊性和主观性。这一数据集的应用不仅推动了情感分析技术的发展,还为相关领域的研究提供了可靠的基准数据。
实际应用
在实际应用中,AFINN-111数据集被广泛用于社交媒体情感分析、客户反馈处理、市场调研等领域。例如,企业可以利用该数据集分析用户对产品的评论,快速识别用户满意度;政府机构则可以通过分析社交媒体上的公众情绪,及时调整政策方向。此外,该数据集还被用于新闻情感分析,帮助媒体机构了解公众对特定事件的情感反应,从而优化新闻报道策略。
数据集最近研究
最新研究方向
在情感分析领域,AFINN-111数据集的最新研究方向主要集中在社交媒体文本的情感极性分析和情感词典的扩展与优化。随着社交媒体平台的广泛应用,研究人员越来越关注如何从海量文本中准确提取情感信息,以支持舆情监控、用户行为预测等应用。AFINN-111数据集因其包含的情感词汇丰富且标注精细,成为情感分析任务中的重要资源。当前的研究热点包括通过深度学习模型对情感词汇进行细粒度分类,以及结合上下文信息提升情感分析的准确性。此外,跨语言情感分析和多模态情感分析也是该领域的研究前沿,旨在解决不同语言和文化背景下的情感表达差异问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作