AFINN-96
收藏github2024-04-12 更新2024-05-31 收录
下载链接:
https://github.com/stdlib-js/datasets-afinn-96
下载链接
链接失效反馈官方服务:
资源简介:
一个包含1468个独特英语单词(和短语)的列表,这些单词根据情感极性(valence)进行评分。负面词汇具有负极性([-5,0)),正面词汇具有正极性((0,5]),中性词汇的极性为0。
This dataset comprises a list of 1468 unique English words and phrases, each assigned a score based on its emotional valence. Negative words hold a valence score within the interval [-5, 0), positive words have a valence score within (0, 5], and neutral words have a valence score of 0.
创建时间:
2021-06-16
原始信息汇总
AFINN-96 数据集概述
数据集描述
AFINN-96 是一个包含英语单词及其情感评分的列表,用于情感分析。每个单词都有一个从-5到5的情感评分,其中负数表示负面情感,正数表示正面情感,0表示中性。
数据集内容
- 单词数量: 1468个独特的英语单词(包括短语)。
- 情感评分范围: 负数(-5,0)表示负面情感,正数(0,5]表示正面情感,0表示中性。
- 数据格式: 列表形式,每个元素是一个包含单词及其情感评分的数组。
使用方法
安装
bash npm install @stdlib/datasets-afinn-96
示例代码
javascript var afinn96 = require( @stdlib/datasets-afinn-96 );
var words = afinn96(); /* returns [ [abandon,-2], [abandons,-2], [abandoned,-2], ... ] */
注意事项
- 该列表是 AFINN-111 的早期版本。
- 列表中包含重复的单词。
- 列表中包含拼写错误的单词,这是为了适应社交媒体内容中常见的拼写错误。
- 所有单词均为小写。
- 部分“单词”实际上是短语。
- 单词可能包含撇号和破折号。
参考文献
- Nielsen, Finn Årup. 2011. "A new ANEW: Evaluation of a word list for sentiment analysis in microblogs."
- Hansen, Lars Kai, et al. 2011. "Good Friends, Bad News - Affect and Virality in Twitter."
许可证
数据文件(数据库)根据 [Open Data Commons Attribution 1.0 License][odc-by-1.0] 授权,其内容根据 [Creative Commons Attribution 4.0 International Public License][cc-by-4.0] 授权。软件根据 [Apache License, Version 2.0][apache-license] 授权。
搜集汇总
数据集介绍

构建方式
AFINN-96数据集是通过对英语单词和短语进行情感评分构建的。该数据集包含1468个独特的英语单词和短语,每个词或短语都被赋予了一个情感值,范围从-5到5,其中负值表示负面情感,正值表示正面情感,0表示中性情感。数据集的构建基于Finn Årup Nielsen的研究,旨在为情感分析提供一个基础的词汇资源。
特点
AFINN-96数据集的特点在于其简洁性和实用性。它包含了常见的英语单词和短语,并且这些词汇的情感评分已经过精心标注,适用于多种情感分析任务。此外,数据集中的词汇包括了拼写错误和重复项,这些设计是为了更好地适应社交媒体等非正式文本的分析需求。
使用方法
AFINN-96数据集可以通过多种方式使用。首先,用户可以通过npm安装包来获取数据集,并在JavaScript环境中直接调用。其次,数据集支持多种输出格式,如CSV和NDJSON,便于在不同平台和工具中进行处理。用户可以根据需要将数据集转换为字典格式,以便快速查询每个单词或短语的情感评分。
背景与挑战
背景概述
AFINN-96数据集是由Finn Årup Nielsen创建的一个英语词汇情感评分列表,主要用于情感分析领域。该数据集包含了1468个独特的英语单词和短语,每个词或短语都被赋予了一个情感值(valence),范围从-5到5,分别表示负面情感到正面情感。AFINN-96是AFINN-111的前身,尽管其规模较小,但在情感分析研究中仍具有重要价值。该数据集的创建旨在为社交媒体内容的情感分析提供一个基础工具,尤其是在处理非正式文本和拼写错误时表现出色。
当前挑战
AFINN-96数据集在构建过程中面临了多个挑战。首先,数据集中包含了重复的词汇和拼写错误,这些错误是故意保留的,以模拟社交媒体中常见的非正式表达。其次,数据集中的词汇不仅包括单个单词,还包含短语和带有标点符号的表达,这增加了情感分析的复杂性。此外,由于该数据集是早期版本,其覆盖范围和准确性可能不如后续版本AFINN-111,这要求研究者在应用时需谨慎考虑其局限性。
常用场景
经典使用场景
AFINN-96数据集的经典使用场景主要集中在情感分析领域。该数据集通过为1468个英语单词和短语分配情感极性评分(从-5到+5),为文本情感分析提供了基础。研究人员和开发者可以利用这些评分来量化文本中的情感倾向,从而在社交媒体监控、产品评论分析、舆情监测等应用中实现自动化的情感识别与分类。
实际应用
在实际应用中,AFINN-96数据集被广泛用于社交媒体监控、客户反馈分析、品牌声誉管理等领域。例如,企业可以利用该数据集分析用户在社交媒体上的评论,自动识别正面或负面的情感倾向,从而及时调整营销策略或改进产品。此外,该数据集还可用于新闻舆情监测,帮助政府和机构快速了解公众对特定事件的情感反应。
衍生相关工作
基于AFINN-96数据集,许多后续研究和工作得以展开。例如,AFINN-111数据集作为其升级版本,进一步扩展了词汇量并改进了情感评分。此外,基于该数据集的情感分析模型在自然语言处理领域得到了广泛应用,推动了情感分析技术的进步。相关工作还包括情感词典的构建、情感分析算法的优化,以及跨语言情感分析的研究。
以上内容由遇见数据集搜集并总结生成



