five

stanfordnlp/sentiment140|情感分析数据集|文本分类数据集

收藏
hugging_face2023-10-20 更新2024-05-25 收录
情感分析
文本分类
下载链接:
https://hf-mirror.com/datasets/stanfordnlp/sentiment140
下载链接
链接失效反馈
资源简介:
Sentiment140数据集包含带有表情符号的Twitter消息,这些表情符号被用作情感分类的噪声标签。数据集主要用于情感分类任务,包含1600000条训练数据和498条测试数据。数据字段包括文本、日期、用户、情感和查询。

Sentiment140数据集包含带有表情符号的Twitter消息,这些表情符号被用作情感分类的噪声标签。数据集主要用于情感分类任务,包含1600000条训练数据和498条测试数据。数据字段包括文本、日期、用户、情感和查询。
提供机构:
stanfordnlp
原始信息汇总

数据集概述

数据集名称

  • 名称: Sentiment140
  • 配置名称: sentiment140

数据集特征

  • 文本: 字符串类型
  • 日期: 字符串类型
  • 用户: 字符串类型
  • 情感: 整数类型 (int32)
  • 查询: 字符串类型

数据集分割

  • 训练集: 1600000条记录
  • 测试集: 498条记录

数据集大小

  • 下载大小: 81.36 MB
  • 数据集大小: 225.82 MB

训练与评估指标

  • 任务: 文本分类
  • 任务ID: multi_class_classification
  • 训练分割: train
  • 评估分割: test
  • 列映射:
    • text: 文本
    • sentiment: 目标
  • 评估指标:
    • 准确率 (Accuracy)
    • F1 macro
    • F1 micro
    • F1 weighted
    • 精确率 macro
    • 精确率 micro
    • 精确率 weighted
    • 召回率 macro
    • 召回率 micro
    • 召回率 weighted

引用信息

@article{go2009twitter, title={Twitter sentiment classification using distant supervision}, author={Go, Alec and Bhayani, Richa and Huang, Lei}, journal={CS224N project report, Stanford}, volume={1}, number={12}, pages={2009}, year={2009} }

贡献者

AI搜集汇总
数据集介绍
main_image_url
构建方式
Sentiment140数据集的构建基于Twitter消息,利用其中的表情符号作为情感分类的噪声标签。数据收集过程中,研究者通过自动化工具从Twitter平台抓取大量公开推文,并结合表情符号的情感倾向进行初步标注。这种基于远程监督的方法,使得数据集能够快速扩展至160万条训练样本和498条测试样本,涵盖了广泛的情感表达。
特点
Sentiment140数据集的特点在于其规模庞大且多样化,涵盖了从2010年至今的Twitter消息。每条数据包含文本内容、发布时间、用户信息、情感标签以及查询关键词。情感标签分为三类,分别代表正面、负面和中性情感。数据集的多样性和广泛性使其成为情感分析任务中的重要基准,尤其适用于研究社交媒体中的情感表达和传播。
使用方法
Sentiment140数据集主要用于情感分类任务,研究者可以通过加载数据集并划分训练集和测试集来构建情感分析模型。数据集中每条推文的情感标签可直接用于监督学习,常见的评估指标包括准确率、F1分数、精确率和召回率等。此外,该数据集还可用于研究社交媒体中的情感趋势分析、用户行为分析等应用场景。
背景与挑战
背景概述
Sentiment140数据集由斯坦福大学的研究团队于2009年创建,旨在通过社交媒体平台Twitter上的文本数据进行情感分析。该数据集的核心研究问题在于利用远距离监督方法对大规模文本数据进行情感分类,从而为自然语言处理领域的情感分析任务提供支持。数据集中的文本数据通过表情符号作为情感标签的噪声来源,为情感分类模型的训练提供了丰富的语料。Sentiment140的发布极大地推动了情感分析领域的研究进展,尤其是在社交媒体文本的情感分类任务中,成为该领域的基准数据集之一。
当前挑战
Sentiment140数据集在情感分析任务中面临的主要挑战包括情感标签的噪声问题。由于数据集的情感标签依赖于表情符号,这些符号可能无法准确反映文本的真实情感,导致模型训练时的标签噪声。此外,社交媒体文本的多样性和非正式性增加了情感分类的难度,模型需要处理大量的缩写、俚语和上下文依赖的情感表达。在数据集的构建过程中,如何有效处理大规模文本数据的噪声和多样性,以及如何确保情感标签的准确性,是研究人员面临的主要挑战。
常用场景
经典使用场景
Sentiment140数据集广泛应用于情感分析领域,特别是在社交媒体文本的情感分类任务中。通过分析包含表情符号的Twitter消息,该数据集为研究者提供了一个丰富的资源,用于训练和评估情感分类模型。其经典使用场景包括对大规模社交媒体数据进行情感倾向性分析,帮助理解公众对特定事件或话题的情感反应。
衍生相关工作
Sentiment140数据集催生了许多相关研究,特别是在情感分类模型的优化和情感分析算法的改进方面。例如,基于该数据集的研究工作提出了多种深度学习模型,如卷积神经网络(CNN)和长短期记忆网络(LSTM),这些模型在情感分类任务中表现出色。此外,该数据集还被用于研究情感分析中的跨领域适应性问题,推动了情感分析技术的进一步发展。
数据集最近研究
最新研究方向
在情感分析领域,Sentiment140数据集因其基于Twitter消息的情感分类任务而备受关注。近年来,研究者们致力于利用深度学习模型,如BERT和GPT,来提升情感分类的准确性和鲁棒性。特别是在处理社交媒体文本时,如何有效捕捉上下文信息和情感极性成为研究热点。此外,随着多模态学习的兴起,结合文本与表情符号等多源信息的情感分析模型也展现出巨大潜力。Sentiment140数据集的应用不仅推动了情感分析技术的发展,还为社交媒体监控、舆情分析等实际应用提供了重要支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录