TM-Senti

Name: TM-Senti
Creator: 伦敦玛丽女王大学
Published: 2023-02-14 02:11:10
License: 暂无描述

arXiv2023-02-14 更新2024-06-21 收录

下载链接：

https://figshare.com/articles/dataset/TM-Senti/16438281

下载链接

链接失效反馈

官方服务：

资源简介：

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

TM-Senti is a large-scale, distant-supervised Twitter sentiment dataset developed by Queen Mary University of London, containing over 184 million tweets spanning more than seven years. Based on the public tweet archive of the Internet Archive, this dataset can be fully reconstructed with complete tweet metadata and no missing tweets. Boasting rich content covering multiple languages, it is primarily utilized for tasks such as sentiment analysis and text classification. During its development, the research team carefully curated emojis and emoticons to guarantee the dataset's quality and diversity. This dataset has a wide range of application scenarios, aiming to address long-term changes in emotional expression on social media, particularly trend analysis of emoji and emoticon usage.

提供机构：

伦敦玛丽女王大学

创建时间：

2021-08-31

搜集汇总

数据集介绍

构建方式

TM-Senti数据集的构建基于Twitter Stream Grab项目，涵盖了2013年1月至2020年6月的推文。通过远距离监督方法，研究人员从Twitter的1%公共流中提取了超过184万条推文，并利用表情符号和表情进行自动标注。数据集的构建过程包括数据收集、数据标注、数据采样和去重四个主要步骤。首先，从Twitter Stream Grab项目中下载推文数据；其次，通过远距离监督方法对推文进行标注，使用扩展的表情符号和表情列表；然后，对标注后的推文进行采样，确保每条推文只匹配一个类别的符号；最后，去除重复的推文，保留原始推文或最早的转发。

使用方法

TM-Senti数据集适用于多种研究任务，包括情感分析和推文分类。研究人员可以通过提供的推文ID和相关标签，重新生成数据集，并利用推文元数据进行进一步分析。数据集的公开发布为情感分析和文本分类提供了宝贵的资源，特别是在需要长时间跨度和多语言支持的研究中。此外，数据集的构建方法和代码也已公开，便于研究人员根据相同的方法创建新的数据集，从而推动相关领域的研究进展。

背景与挑战

背景概述

社交媒体作为计算机中介通信的一种形式，已被广泛用于研究用户对事件或话题的情感表达。然而，关于社交媒体上情感随时间演变的长程研究存在空白。为了填补这一空白，Wenjie Yin、Rabab Alkhalifa和Arkaitz Zubiaga等研究人员于2020年在伦敦玛丽女王大学开发了TM-Senti数据集。该数据集包含超过1.84亿条推文，覆盖了超过七年的时间跨度，旨在通过远监督方法创建一个大规模、基于表情符号和表情的大规模情感分析数据集。TM-Senti数据集的发布为情感分析和推文分类等任务的进一步研究提供了资源，其影响力在于能够完全重构推文元数据，且不缺失任何推文，这得益于互联网档案馆公开的推文存档。

当前挑战

TM-Senti数据集在构建过程中面临多个挑战。首先，解决领域问题的挑战在于如何有效地捕捉和分析社交媒体上情感表达的长期变化，特别是表情符号和表情在情感表达中的使用变化。其次，构建过程中的挑战包括数据收集、标注和去重。数据收集涉及从Twitter Stream Grab项目下载2013年至2020年的所有推文，这是一个庞大的任务。数据标注则依赖于远监督方法，通过扩展表情符号和表情的列表来实现，这需要对每个符号的情感倾向进行准确评估。此外，数据去重也是一个复杂的过程，需要确保在保留原始推文的同时去除重复内容。这些挑战共同构成了TM-Senti数据集在实际应用中的主要障碍。

常用场景

经典使用场景

TM-Senti数据集的经典使用场景主要集中在社交媒体情感分析领域。该数据集通过远监督方法，利用表情符号和表情图标对超过1.84亿条推文进行情感标注，覆盖了七年多的时间跨度。这一特性使得TM-Senti成为研究社交媒体情感随时间演变的理想工具，尤其是在分析表情符号和表情图标使用趋势的变化方面。

解决学术问题

TM-Senti数据集解决了社交媒体情感分析中长期存在的数据集规模有限、时间跨度短以及难以完全重构的问题。通过提供大规模、长时间跨度的情感标注数据，TM-Senti为学术界提供了一个强大的工具，用于研究情感随时间的演变，特别是在表情符号和表情图标的使用变化上。这不仅有助于改进情感分析模型，还为跨语言和跨文化的情感研究提供了新的视角。

实际应用

在实际应用中，TM-Senti数据集可用于多种场景，如品牌监测、政治事件分析和社交媒体舆情监控。通过分析用户在特定事件或话题上的情感表达，企业和政府机构可以更有效地制定应对策略。此外，该数据集还可用于开发和验证情感分析算法，特别是在需要考虑时间因素和多语言背景的应用中。

数据集最近研究