AFINN-111

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/stdlib-js/datasets-afinn-111

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含2477个英语单词及其情感评分的列表，其中负向情感的词评分为-5到0，正向情感的词评分为0到5，中性词评分为0。

A list comprising 2477 English words along with their sentiment scores, where words with negative sentiment are scored from -5 to 0, those with positive sentiment from 0 to 5, and neutral words are scored 0.

创建时间：

2021-06-16

原始信息汇总

AFINN-111

概述

AFINN-111是一个包含2477个英语单词（及短语）的列表，这些单词根据情感极性（valence）进行评分。每个单词的评分范围从-5到5，其中负数表示负面情感，正数表示正面情感，0表示中性。

数据集内容

单词数量：2477个
单词特性：
- 包含拼写错误的单词
- 所有单词均为小写
- 单词可能包含数字、特殊字符（如n00b）
- 部分单词为短语，如cool stuff
- 单词可能包含特殊字符，如cant stand中的撇号

使用方法

安装

bash npm install @stdlib/datasets-afinn-111

使用示例

javascript var afinn111 = require( @stdlib/datasets-afinn-111 );

var words = afinn111(); /* returns [ [abandon,-2], [abandoned,-2], [abandons,-2], ... ] */

注意事项

数据集中的单词可能包含多种字符，包括数字和特殊符号。
所有单词均为小写，包括短语和可能的拼写错误。

参考文献

Nielsen, Finn Årup. 2011. "A new ANEW: Evaluation of a word list for sentiment analysis in microblogs."
Hansen, Lars Kai, et al. 2011. "Good Friends, Bad News - Affect and Virality in Twitter."

许可证

数据集及其内容根据[Open Data Commons Attribution 1.0 License][odc-by-1.0]和[Creative Commons Attribution 4.0 International Public License][cc-by-4.0]授权。软件部分则根据[Apache License, Version 2.0][apache-license]授权。

搜集汇总

数据集介绍

构建方式

AFINN-111数据集通过精心挑选和评估2477个英语单词和短语，构建了一个情感评分列表。每个词条都被赋予一个情感值，范围从-5到5，其中负值表示负面情感，正值表示正面情感，0表示中性情感。数据集的构建考虑了社交媒体中常见的拼写错误、数字、短语、标点符号和特殊字符，确保其广泛适用性。

使用方法

AFINN-111数据集可以通过多种方式使用，包括直接调用JavaScript库或通过命令行接口进行操作。用户可以获取包含情感评分的单词列表，并将其转换为字典格式以便快速查找。数据集支持CSV和NDJSON格式输出，适用于不同的数据处理需求。

背景与挑战

背景概述

AFINN-111数据集是由Finn Årup Nielsen于2011年创建的，旨在为情感分析提供一个英语词汇的情感评分列表。该数据集包含了2477个英语单词和短语，每个词或短语都被赋予了一个情感值，范围从-5到5，其中负值表示负面情感，正值表示正面情感，0表示中性情感。AFINN-111数据集在社交媒体内容分析、情感计算和自然语言处理等领域具有广泛的应用，尤其是在微博客和社交网络的情感分析中，其影响力显著。

当前挑战

AFINN-111数据集在构建过程中面临了多个挑战。首先，如何准确地为每个单词或短语分配情感值是一个复杂的问题，尤其是在处理多义词和情感模糊的词汇时。其次，数据集中包含了拼写错误、含有数字和特殊字符的词汇，这些词汇在社交媒体中频繁出现，增加了情感分析的难度。此外，处理包含多个单词的短语时，如何保持情感评分的准确性也是一个挑战。这些挑战使得AFINN-111在实际应用中需要进一步的优化和校准。

常用场景

经典使用场景

AFINN-111数据集的经典使用场景主要集中在情感分析领域。该数据集包含了2477个英语单词和短语，每个词条都附带一个情感极性评分，范围从-5到5，分别代表负面情感和正面情感。研究人员和开发者可以利用这一数据集对文本进行情感分类，识别文本中的情感倾向，从而在社交媒体监控、产品评论分析、舆情监测等应用中发挥重要作用。

解决学术问题

AFINN-111数据集解决了情感分析中的关键学术问题，特别是在细粒度情感分类和情感极性量化方面。通过提供明确的情感评分，该数据集使得研究人员能够更精确地评估文本的情感倾向，避免了传统情感分析中可能出现的模糊性和主观性。这一数据集的应用不仅推动了情感分析技术的发展，还为相关领域的研究提供了可靠的基准数据。

实际应用

在实际应用中，AFINN-111数据集被广泛用于社交媒体情感分析、客户反馈处理、市场调研等领域。例如，企业可以利用该数据集分析用户对产品的评论，快速识别用户满意度；政府机构则可以通过分析社交媒体上的公众情绪，及时调整政策方向。此外，该数据集还被用于新闻情感分析，帮助媒体机构了解公众对特定事件的情感反应，从而优化新闻报道策略。

数据集最近研究