tweetfeels-100k

Hugging Face2025-08-30 更新2025-08-31 收录

下载链接：

https://huggingface.co/datasets/mnemoraorg/tweetfeels-100k

下载链接

链接失效反馈

官方服务：

资源简介：

TweetFeels 100k是一个包含101,160条推文的Twitter情感分析数据集，收集于2015年，通过Twitter搜索API获取。该数据集使用远监督方法进行标注，推文中包含正面表情符号的被认为是正面情感，包含负面表情符号的被认为是负面情感。每个记录包含两个制表符分隔的字段：情感标签（0代表负面，4代表正面）和完整的UTF-8推文文本。这个数据集专注于Twitter典型的简短非正式语言，适合快速实验、课堂教学或情感分析管道中的快速模型原型设计。

创建时间：

2025-08-30

原始信息汇总

TweetFeels 100k 数据集概述

基本信息

许可证：ECL-2.0
语言：英语
标签：公共、文本、教育、情感分析
数据集名称：TweetFeels 100k
规模：100K<n<1M

数据集描述

TweetFeels 100k 是一个紧凑的、自动标注的 Twitter 情感语料库，包含 101,160 条推文。这些推文于 2015 年通过 Twitter 搜索 API 收集。情感极性标签（0 = 负面，4 = 正面）通过远程监督方式分配：包含正面表情符号（如“:)”）的推文被视为正面，而包含负面表情符号（如“:(”）的推文被视为负面。

数据格式

每条记录包含两个以制表符分隔的字段：

target：情感标签（0 或 4）
tweet：完整的 UTF-8 推文文本

应用场景

该数据集专注于 Twitter 典型的简短、非正式语言，适用于快速实验、课堂教学或情感分析流程中的快速模型原型设计。

致谢

该数据集托管于 https://www.kaggle.com/datasets/farheenshaukat/tweet-sentiment-dataset。

搜集汇总

数据集介绍

构建方式

在社交媒体情感分析领域，数据标注的自动化方法备受关注。TweetFeels-100k数据集通过远程监督技术构建，基于2015年Twitter搜索API收集的101,160条推文，采用情感符号作为标注依据：包含正面表情（如":)")的推文标记为积极情感（标签4），包含负面表情（如":(")的则标记为消极情感（标签0）。这种构建方式有效利用了社交媒体数据的固有特征，实现了大规模语料的快速标注。

特点

该数据集突出体现了社交媒体文本的典型特征，所有推文均保留原始UTF-8编码格式，呈现短文本、非正式语言的风格特质。每条记录包含两个制表符分隔字段——情感标签和目标推文文本，结构简洁明晰。数据集规模控制在10万至100万条之间，既保证了数据多样性，又适用于快速实验和教学演示场景，为情感分析模型提供了高质量的基准测试资源。

使用方法

研究人员可借助该数据集进行情感分类模型的训练与验证，直接读取制表符分隔的文本文件即可获取标注数据。典型应用场景包括监督学习模型训练、情感分析算法性能对比以及自然语言处理课堂教学。数据集支持快速原型开发，用户可通过解析target字段获取情感标签，tweet字段作为输入文本，无缝集成到机器学习管道中，加速情感分析任务的迭代过程。

背景与挑战

背景概述

情感分析作为自然语言处理的重要分支，其发展离不开高质量标注数据的支撑。TweetFeels-100k数据集由研究团队于2015年通过Twitter搜索API构建，采用远程监督技术自动标注情感极性，其中负面情感标注为0，正面情感标注为4。该数据集聚焦社交媒体文本的情感分类任务，以其十万余条推特的规模成为教育场景和模型快速原型验证的理想选择，为短文本情感分析研究提供了重要数据基础。

当前挑战

该数据集致力于解决社交媒体文本情感分类的复杂性挑战，包括推特文本中特有的非正式表达、俚语使用和语境依赖性问题。构建过程中面临标注质量控制的挑战，依赖表情符号的远程监督方法虽提升效率，但难以处理反讽或中性表达；同时推特数据的实时性特征导致采样窗口受限，且需处理大量噪声文本和字符编码问题，这些因素共同影响了数据集的标注一致性和泛化能力。

常用场景

经典使用场景

在自然语言处理领域，TweetFeels-100k数据集常被用于情感分析模型的训练与评估，特别是在处理社交媒体文本方面。该数据集通过远程监督方式标注情感极性，为研究者提供了一个规模适中、标注质量较高的语料库，适用于课堂演示、算法对比及快速原型开发。

衍生相关工作

该数据集催生了多项关于噪声标签学习和跨领域情感分析的经典研究。例如基于对抗训练的情感分类模型改进工作，以及结合BERT等预训练模型的迁移学习方案，这些研究显著提升了社交媒体文本情感识别的准确性和鲁棒性。

数据集最近研究