stanfordnlp/sentiment140

Hugging Face2023-10-20 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/stanfordnlp/sentiment140

下载链接

链接失效反馈

资源简介：

Sentiment140数据集包含带有表情符号的Twitter消息，这些表情符号被用作情感分类的噪声标签。数据集主要用于情感分类任务，包含1600000条训练数据和498条测试数据。数据字段包括文本、日期、用户、情感和查询。

提供机构：

stanfordnlp

原始信息汇总

数据集概述

数据集名称

名称: Sentiment140
配置名称: sentiment140

数据集特征

文本: 字符串类型
日期: 字符串类型
用户: 字符串类型
情感: 整数类型 (int32)
查询: 字符串类型

数据集分割

训练集: 1600000条记录
测试集: 498条记录

数据集大小

下载大小: 81.36 MB
数据集大小: 225.82 MB

训练与评估指标

任务: 文本分类
任务ID: multi_class_classification
训练分割: train
评估分割: test
列映射:
- text: 文本
- sentiment: 目标
评估指标:
- 准确率 (Accuracy)
- F1 macro
- F1 micro
- F1 weighted
- 精确率 macro
- 精确率 micro
- 精确率 weighted
- 召回率 macro
- 召回率 micro
- 召回率 weighted

引用信息

@article{go2009twitter, title={Twitter sentiment classification using distant supervision}, author={Go, Alec and Bhayani, Richa and Huang, Lei}, journal={CS224N project report, Stanford}, volume={1}, number={12}, pages={2009}, year={2009} }

贡献者

搜集汇总

数据集介绍

构建方式

Sentiment140数据集的构建基于Twitter消息，利用其中的表情符号作为情感分类的噪声标签。数据收集过程中，研究者通过自动化工具从Twitter平台抓取大量公开推文，并结合表情符号的情感倾向进行初步标注。这种基于远程监督的方法，使得数据集能够快速扩展至160万条训练样本和498条测试样本，涵盖了广泛的情感表达。

特点

Sentiment140数据集的特点在于其规模庞大且多样化，涵盖了从2010年至今的Twitter消息。每条数据包含文本内容、发布时间、用户信息、情感标签以及查询关键词。情感标签分为三类，分别代表正面、负面和中性情感。数据集的多样性和广泛性使其成为情感分析任务中的重要基准，尤其适用于研究社交媒体中的情感表达和传播。

使用方法

Sentiment140数据集主要用于情感分类任务，研究者可以通过加载数据集并划分训练集和测试集来构建情感分析模型。数据集中每条推文的情感标签可直接用于监督学习，常见的评估指标包括准确率、F1分数、精确率和召回率等。此外，该数据集还可用于研究社交媒体中的情感趋势分析、用户行为分析等应用场景。

背景与挑战

背景概述

Sentiment140数据集由斯坦福大学的研究团队于2009年创建，旨在通过社交媒体平台Twitter上的文本数据进行情感分析。该数据集的核心研究问题在于利用远距离监督方法对大规模文本数据进行情感分类，从而为自然语言处理领域的情感分析任务提供支持。数据集中的文本数据通过表情符号作为情感标签的噪声来源，为情感分类模型的训练提供了丰富的语料。Sentiment140的发布极大地推动了情感分析领域的研究进展，尤其是在社交媒体文本的情感分类任务中，成为该领域的基准数据集之一。

当前挑战

Sentiment140数据集在情感分析任务中面临的主要挑战包括情感标签的噪声问题。由于数据集的情感标签依赖于表情符号，这些符号可能无法准确反映文本的真实情感，导致模型训练时的标签噪声。此外，社交媒体文本的多样性和非正式性增加了情感分类的难度，模型需要处理大量的缩写、俚语和上下文依赖的情感表达。在数据集的构建过程中，如何有效处理大规模文本数据的噪声和多样性，以及如何确保情感标签的准确性，是研究人员面临的主要挑战。

常用场景

经典使用场景

Sentiment140数据集广泛应用于情感分析领域，特别是在社交媒体文本的情感分类任务中。通过分析包含表情符号的Twitter消息，该数据集为研究者提供了一个丰富的资源，用于训练和评估情感分类模型。其经典使用场景包括对大规模社交媒体数据进行情感倾向性分析，帮助理解公众对特定事件或话题的情感反应。

衍生相关工作

Sentiment140数据集催生了许多相关研究，特别是在情感分类模型的优化和情感分析算法的改进方面。例如，基于该数据集的研究工作提出了多种深度学习模型，如卷积神经网络（CNN）和长短期记忆网络（LSTM），这些模型在情感分类任务中表现出色。此外，该数据集还被用于研究情感分析中的跨领域适应性问题，推动了情感分析技术的进一步发展。

数据集最近研究