five

SST-1, SST-2, IMDB, Yelp, Sentiment140|情感分析数据集|文本分类数据集

收藏
github2023-09-12 更新2024-05-31 收录
情感分析
文本分类
下载链接:
https://github.com/12190143/Datasets-for-Sentiment-Analysis
下载链接
链接失效反馈
资源简介:
SST-1/SST-2: 斯坦福情感树库包含来自电影评论的句子及人工标注的情感。任务是预测给定句子的情感。我们使用正/负两类分类,仅使用句子级别的标签。 IMDB: 大型电影评论数据集。这是一个用于二元情感分类的数据集,包含比以往基准数据集更多的数据。我们提供一组25,000个高度极化的电影评论用于训练,25,000个用于测试。还有额外的未标记数据可用。 Yelp: Yelp评论极性数据集是根据星级1和2为负面,3和4为正面构建的。每种极性随机选取280,000个训练样本和19,000个测试样本。总共有560,000个训练样本和38,000个测试样本。负面极性为类别1,正面为类别2。 Sentiment140: Sentiment140包含带有表情符号的Twitter消息,这些表情符号用作情感分类的噪声标签。更多详细信息请参阅论文。

SST-1/SST-2: The Stanford Sentiment Treebank includes sentences from movie reviews along with manually annotated sentiments. The task is to predict the sentiment of a given sentence. We use a two-class classification of positive/negative, utilizing only sentence-level labels. IMDB: A large movie review dataset. This is a dataset for binary sentiment classification, containing more data than previous benchmark datasets. We provide a set of 25,000 highly polarized movie reviews for training and 25,000 for testing. Additional unlabeled data is also available. Yelp: The Yelp Review Polarity dataset is constructed with stars 1 and 2 as negative, and 3 and 4 as positive. For each polarity, 280,000 training samples and 19,000 test samples are randomly selected. In total, there are 560,000 training samples and 38,000 test samples. Negative polarity is labeled as category 1, and positive as category 2. Sentiment140: Sentiment140 contains Twitter messages with emoticons, which are used as noisy labels for sentiment classification. For more details, please refer to the paper.
创建时间:
2020-05-18
原始信息汇总

数据集概述

情感分析数据集

  1. SST-1/SST-2

    • 数据来源:电影评论句子
    • 任务:预测句子的情感(正面/负面)
    • 数据链接:SST-2数据集
  2. IMDB

    • 数据类型:大型电影评论数据集
    • 任务:二元情感分类
    • 数据量:训练集和测试集各25,000条
    • 数据链接:IMDB数据集
  3. Yelp

    • 数据类型:Yelp评论极性数据集
    • 任务:情感分类
    • 数据量:训练集560,000条,测试集38,000条
    • 数据链接:Yelp数据集
  4. Sentiment140

    • 数据类型:Twitter消息,包含表情符号作为情感分类的噪声标签
    • 数据链接:Sentiment140数据集

多领域情感分析数据集

  1. SemEval 14 Task 4

  2. SemEval 15 Task 12

  3. SemEval 16 Task 5

其他数据集

  1. Twitter

    • 数据类型:针对特定关键词(如“bill gates”, “taylor swift”等)的Twitter情感分析
    • 数据量:训练集6,248条,测试集692条
  2. Sentihood

  3. MPQA

    • 数据类型:实体/事件级情感数据集
    • 数据链接:MPQA数据集
  4. TripAdvisor

    • 数据类型:酒店评论数据集,包含235,793条评论
    • 数据链接:未提供直接下载链接
  5. Mitchell

    • 数据类型:开放域目标情感分析
    • 数据链接:未提供直接下载链接
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要依赖于从多个来源收集的文本数据,并通过人工标注或自动标注的方式进行情感分类。例如,SST-1和SST-2数据集基于电影评论句子,并由人类标注其情感极性;IMDB数据集则包含大量极化的电影评论,分为训练集和测试集;Yelp数据集通过用户评分的星级来划分情感极性;Sentiment140数据集则利用Twitter消息中的表情符号作为情感标签。这些数据集的构建过程均经过严格的筛选和标注,以确保数据的质量和一致性。
特点
该数据集的特点在于其多样性和广泛的应用场景。SST-1和SST-2数据集提供了句子级别的细粒度情感分析,IMDB数据集则以其大规模和高极化的评论著称,适用于深度学习模型的训练。Yelp数据集通过用户评分提供了丰富的商业评论数据,而Sentiment140数据集则专注于社交媒体文本的情感分析。这些数据集不仅覆盖了不同的文本类型和领域,还为情感分析研究提供了丰富的实验数据。
使用方法
该数据集的使用方法主要包括数据下载、预处理和模型训练。用户可以通过提供的URL链接下载数据集,并根据需要进行数据清洗和格式转换。对于情感分析任务,通常将数据集划分为训练集和测试集,使用机器学习或深度学习模型进行训练和评估。例如,SST-1和SST-2数据集可用于句子级别的情感分类,IMDB数据集适用于大规模文本分类任务,Yelp数据集可用于商业评论的情感分析,而Sentiment140数据集则适用于社交媒体文本的情感分类。用户可以根据具体任务选择合适的模型和算法进行实验。
背景与挑战
背景概述
SST-1、SST-2、IMDB、Yelp和Sentiment140等数据集是情感分析领域的重要基准数据集。其中,SST-1和SST-2由斯坦福大学的研究团队于2013年发布,基于电影评论构建,旨在通过递归深度模型解决语义组合性问题。IMDB数据集由斯坦福大学的研究人员于2011年提出,包含大量极化的电影评论,推动了情感分类任务的发展。Yelp数据集则基于用户对商家的评论,由Zhang等人于2015年发布,专注于文本分类任务。Sentiment140则利用Twitter消息中的表情符号作为情感标签,为社交媒体情感分析提供了重要资源。这些数据集在自然语言处理领域具有广泛影响力,推动了情感分析技术的进步。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,情感分析任务本身具有主观性,不同标注者可能对同一文本的情感倾向存在分歧,导致标注一致性难以保证。其次,数据集的构建需要大量高质量的人工标注,成本高昂且耗时。例如,SST-1和SST-2的标注过程依赖于复杂的树结构,增加了标注难度。此外,社交媒体数据(如Sentiment140)中的噪声问题显著,表情符号作为情感标签的可靠性有限。最后,跨领域情感分析(如Yelp和IMDB)面临领域适应性问题,模型在不同领域间的泛化能力较弱。这些挑战为情感分析研究提供了重要的改进方向。
常用场景
经典使用场景
在情感分析领域,SST-1、SST-2、IMDB、Yelp和Sentiment140数据集被广泛用于训练和评估情感分类模型。这些数据集涵盖了从电影评论到社交媒体文本的多种文本类型,能够帮助研究人员构建和优化情感分析算法。例如,SST-1和SST-2数据集通过句子级别的标注,提供了丰富的语义信息,而IMDB和Yelp数据集则因其大规模和高极性特点,成为测试模型泛化能力的理想选择。
实际应用
在实际应用中,这些数据集被广泛应用于产品评论分析、社交媒体监控和客户反馈管理等领域。例如,Yelp数据集可用于分析用户对餐厅或服务的评价,帮助企业优化服务质量。IMDB数据集则可用于电影推荐系统的开发,通过分析用户对电影的评论,提供个性化的推荐。Sentiment140数据集则被用于实时监控社交媒体上的公众情绪,帮助品牌及时调整市场策略。
衍生相关工作
这些数据集衍生了许多经典的研究工作。例如,基于SST-1和SST-2的递归神经网络模型(Socher et al., 2013)为语义组合性建模提供了新的思路。IMDB数据集则催生了多种深度学习模型,如卷积神经网络(Zhang et al., 2015),用于文本分类任务。Yelp数据集被广泛用于测试字符级卷积网络的效果,而Sentiment140则推动了目标依赖情感分类模型的发展(Dong et al., 2014)。这些工作极大地丰富了情感分析领域的研究成果。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作