Tweets para Análise de Sentimentos em Português (TAS-PT)
收藏github2023-11-03 更新2024-05-31 收录
下载链接:
https://github.com/pauloemmilio/dataset
下载链接
链接失效反馈官方服务:
资源简介:
TAS-PT是一个用于葡萄牙语情感分析的数据集,数据来源于Twitter。数据集包含两个文件:positivo.txt包含38119个正面情感的推文ID,negativo.txt包含38119个负面情感的推文ID。推文通过自动捕捉和标记,使用表情符号进行情感分类。数据集不包含推文的文本内容,需通过Twitter API根据ID获取。
TAS-PT is a dataset designed for sentiment analysis in Portuguese, sourced from Twitter. The dataset comprises two files: positivo.txt, which contains 38,119 tweet IDs associated with positive sentiments, and negativo.txt, which contains 38,119 tweet IDs associated with negative sentiments. The tweets were automatically captured and labeled, utilizing emojis for sentiment classification. The dataset does not include the textual content of the tweets; the content must be retrieved via the Twitter API using the provided IDs.
创建时间:
2017-05-23
原始信息汇总
Tweets para Análise de Sentimentos em Português (TAS-PT)
数据集概述
- 语言: 葡萄牙语
- 来源: Twitter
- 用途: 情感分析
数据集结构
- 文件组成:
- positivo.txt: 包含38119个带有积极情感的推文ID
- negativo.txt: 包含38119个带有消极情感的推文ID
数据标注
- 标注方法: 使用表情符号自动标注
- 积极情感: 表情符号 :) 或 :-)
- 消极情感: 表情符号 :( 或 :-(
数据获取
- 内容限制: 数据集不包含推文文本内容,需通过Twitter API使用推文ID获取
- 获取工具: 使用script.py脚本下载推文并存储于SQLite数据库(tweets.sqlite)
- 数据库结构:
- 表: 包含推文数据
- 列: tweet_id, text, sentiment
- tweet_id: 推文ID
- text: 推文文本内容
- sentiment: 情感标签 (0 = 消极, 1 = 积极)
数据访问
- 访问方法: 导入db.py文件并调用
get_tweets()函数获取数据库中的推文
搜集汇总
数据集介绍

构建方式
Tweets para Análise de Sentimentos em Português (TAS-PT) 数据集的构建基于从Twitter平台收集的葡萄牙语推文。数据集通过自动标注情感的方式进行构建,具体方法是通过推文中包含的表情符号来区分情感极性。推文中出现':)'或':-)'的被视为积极情感,而出现':('或':-('的则被视为消极情感。数据集包含两个文件,分别存储了38119条积极和消极情感的推文ID。由于Twitter的隐私政策限制,数据集未直接提供推文内容,而是通过推文ID供用户通过Twitter API获取具体内容。
使用方法
使用TAS-PT数据集时,用户首先需要运行提供的*script.py*脚本,通过Twitter API下载与推文ID对应的推文内容,并将其存储到SQLite数据库中。由于Twitter API的访问限制,下载过程可能需要较长时间,但脚本支持断点续传功能,用户可随时中断并重新启动下载过程。下载完成后,用户可通过导入*db.py*文件并调用`get_tweets()`函数访问数据库中的推文内容。数据库包含三个字段:tweet_id(推文ID)、text(推文内容)和sentiment(情感标签,0表示消极,1表示积极),便于用户进行情感分析研究。
背景与挑战
背景概述
Tweets para Análise de Sentimentos em Português (TAS-PT) 是一个专门用于葡萄牙语情感分析的Twitter数据集。该数据集由自动收集和标注的推文组成,主要基于推文中使用的表情符号进行情感分类。数据集包含两个文件,分别记录了38119条正面情感和负面情感的推文ID。由于Twitter的隐私政策,数据集未直接提供推文内容,而是通过推文ID结合Twitter API获取具体内容。这一设计不仅保护了用户隐私,也为研究人员提供了灵活的数据获取方式。TAS-PT的创建为葡萄牙语情感分析领域提供了重要的数据支持,推动了自然语言处理技术在葡萄牙语社交媒体分析中的应用。
当前挑战
TAS-PT数据集在构建和应用过程中面临多重挑战。首先,情感分类的准确性依赖于表情符号的自动标注,这可能引入噪声,因为表情符号的使用并不总是与情感一致。其次,由于数据集仅提供推文ID,研究人员需要通过Twitter API获取推文内容,这一过程受限于API的访问频率和数据获取的延迟,可能导致研究效率降低。此外,Twitter内容的动态性和隐私政策的变化也为数据集的长期可用性和更新带来了不确定性。这些挑战要求研究者在数据预处理和模型训练中采取更为精细的策略,以确保情感分析结果的可靠性。
常用场景
经典使用场景
Tweets para Análise de Sentimentos em Português (TAS-PT) 数据集在自然语言处理领域中被广泛用于情感分析任务。通过该数据集,研究者可以训练和评估机器学习模型,以自动识别葡萄牙语推文中的情感倾向。数据集中的推文被标记为正面或负面情感,为情感分类模型的开发提供了高质量的标注数据。
解决学术问题
TAS-PT 数据集解决了葡萄牙语情感分析研究中数据稀缺的问题。由于葡萄牙语的情感分析资源相对有限,该数据集为研究者提供了一个标准化的基准,用于比较不同算法的性能。此外,数据集的自动标注机制确保了情感标签的一致性,减少了人工标注的主观性和误差,从而提升了研究的可靠性和可重复性。
实际应用
在实际应用中,TAS-PT 数据集被广泛用于社交媒体监控、品牌声誉管理和市场趋势分析等领域。通过分析推文中的情感倾向,企业可以实时了解消费者对其产品或服务的态度,从而制定更有效的营销策略。此外,政府和公共机构也可以利用该数据集监测公众对政策或事件的情感反应,以优化决策过程。
数据集最近研究
最新研究方向
在情感分析领域,Tweets para Análise de Sentimentos em Português (TAS-PT) 数据集为葡萄牙语社交媒体文本的情感分类研究提供了重要资源。该数据集通过自动标注的方式,基于表情符号对推文进行情感分类,涵盖了正负情感各38119条推文。尽管数据集未直接提供推文内容,但通过Twitter API获取文本的方式确保了数据的隐私合规性。近年来,随着自然语言处理技术的进步,研究者们利用该数据集探索了多种深度学习模型在葡萄牙语情感分析中的应用,如BERT变体和LSTM网络。这些研究不仅提升了情感分类的准确性,还为跨语言情感分析模型的迁移学习提供了新的视角。此外,该数据集在社交媒体舆情监控、品牌声誉管理等领域具有广泛的应用潜力,推动了情感分析技术在葡萄牙语市场中的实际落地。
以上内容由遇见数据集搜集并总结生成



