cardiffnlp/tweet_topic_multi
收藏Hugging Face2025-06-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cardiffnlp/tweet_topic_multi
下载链接
链接失效反馈官方服务:
资源简介:
TweetTopicSingle 是一个基于Twitter的文本分类数据集,包含19个类别标签。每个数据实例包括文本、日期和标签。数据集包括训练集、验证集和测试集,以及随机分割和COLING 2022会议使用的分割。
TweetTopicSingle is a text classification dataset based on Twitter, containing 19 class labels. Each data instance includes text, date, and label. The dataset includes training, validation, and test sets, as well as random splits and splits used in the COLING 2022 conference.
提供机构:
cardiffnlp
原始信息汇总
数据集概述
基本信息
- 名称: Tweet Topic Dataset
- 域: Twitter
- 类别数: 19
- 语言: 英语
- 许可: 其他
- 多语言性: 单语
- 大小: 1k<10K
- 任务类别: 文本分类
- 任务ID: 情感分类
数据集详情
- 来源论文: https://arxiv.org/abs/2209.09824
- 数据集描述: 该数据集是Twitter主题分类数据集,包含19个标签,每个实例附带时间戳,时间范围从2019年9月至2021年8月。
数据预处理
- 预处理步骤: 将URL转换为特殊标记
{{URL}},非验证用户名转换为{{USERNAME}},验证用户名显示名替换为符号{@}。
数据分割
- 分割详情:
- 训练集:
train_2020(4585条),train_2021(1505条),train_all(6090条) - 验证集:
validation_2020(573条),validation_2021(188条) - 测试集:
test_2020(573条),test_2021(1679条)
- 训练集:
模型性能
- 模型: 多个基于Roberta的模型
- 训练数据: 2020年和2021年的数据
- 性能指标: F1分数, 宏F1分数, 准确率
数据实例结构
- 示例: python { "date": "2021-03-07", "text": "...", "id": "...", "label": [...], "label_name": ["film_tv_&_video"] }
标签信息
- 标签列表: 包含19个类别,如
arts_&_culture,business_&_entrepreneurs,celebrity_&_pop_culture等。
引用信息
-
引用格式:
@inproceedings{dimosthenis-etal-2022-twitter, title = "{T}witter {T}opic {C}lassification", author = "...", booktitle = "...", year = "2022" }
搜集汇总
数据集介绍

构建方式
在社交媒体分析领域,推特作为信息传播的重要平台,其内容主题的自动识别对理解公众兴趣与趋势具有关键价值。TweetTopic数据集的构建基于2019年9月至2021年8月期间收集的推文,通过人工标注流程为每条文本分配至多19个主题类别。数据预处理阶段采用了规范化策略,将原始推文中的网址替换为特殊标记{{URL}},并对非认证用户名进行匿名化处理,以保护用户隐私并减少噪声干扰。这种构建方式确保了数据集的时效性与标注一致性,为研究社交媒体的主题演化提供了坚实基础。
特点
该数据集的核心特征体现在其多标签分类框架与时间维度划分上。每条推文可对应多个主题标签,覆盖艺术文化、商业创业、流行文化、日常生活等19个广泛领域,反映了社交媒体内容的多样性。数据集按时间跨度划分为2020年与2021年两个年度子集,并提供了随机分割与时间顺序分割两种版本,支持时序迁移学习与静态分类任务的对比研究。此外,数据实例包含时间戳、文本内容及标准化标签序列,为探索主题分布随时间演变的规律提供了结构化支持。
使用方法
使用该数据集时,研究者可根据实验目标选择相应的数据分割方案。对于时序迁移学习场景,建议采用train_2020与validation_2020作为训练与验证集,并在test_2021上评估模型性能,以检验模型对时间分布变化的适应性。若进行常规主题分类研究,可使用train_all与validation_2021进行模型训练与调优,最终在test_2021上测试泛化能力。数据加载可通过HuggingFace数据集库直接调用,预处理函数已集成于代码示例中,便于快速实现文本规范化与模型输入格式化。
背景与挑战
背景概述
在社交媒体分析领域,推特作为实时信息传播的重要平台,其内容主题的自动识别一直是自然语言处理研究的焦点。由卡迪夫大学自然语言处理团队于2022年创建的TweetTopic多标签数据集,旨在解决推特文本的多主题分类问题。该数据集收录了2019年9月至2021年8月期间的推文,涵盖艺术文化、商业创业、流行文化等19个精细主题类别,为社交媒体内容理解提供了高质量的标注资源。其构建基于与TweetNER7相同的推文集合,并集成于TweetNLP工具包,显著推动了社交媒体挖掘和主题建模技术的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,推特文本的简洁性、非正式表达以及多主题交织特性,使得传统分类模型难以准确捕捉语义的细微差别和标签间的复杂关联;同时,社交媒体话题的快速演变导致模型容易受到时间分布偏移的影响,降低了在动态环境中的泛化能力。在构建过程中,推文中的用户提及、网址链接等噪声元素的规范化处理需要精细设计,而多标签标注的一致性和完整性也依赖于严谨的人工审核流程,这些因素共同增加了数据集构建的复杂性和成本。
常用场景
经典使用场景
在社交媒体分析领域,TweetTopic多标签数据集为研究者提供了对推特文本进行细粒度主题分类的基准工具。该数据集通过标注19个涵盖文化、商业、科技等多元主题的类别,使得模型能够学习识别推文中可能同时存在的多个话题。其经典使用场景包括训练多标签分类模型,以捕捉推特内容中常见的主题交叉现象,例如一条推文可能同时涉及音乐与流行文化。数据集的时序划分设计,进一步支持了模型在时间推移下的性能评估,为动态社交媒体环境中的主题演化研究奠定基础。
实际应用
在实际应用中,TweetTopic数据集为社交媒体监控、内容推荐和舆情分析提供了关键支持。企业可利用基于该数据集训练的模型,自动对海量推文进行主题归类,实时追踪品牌声誉或公众对特定事件的反响。新闻机构能够借此识别热点话题,优化内容分发策略。在教育领域,该数据集有助于分析学生群体的兴趣趋势,为个性化学习资源推荐提供依据。这些应用显著提升了信息处理的效率与准确性,赋能各行业的数据驱动决策。
衍生相关工作
围绕TweetTopic数据集,已衍生出一系列经典研究工作,包括基于RoBERTa和Twitter专用预训练模型的微调架构。相关研究探索了多标签分类中的损失函数优化、标签不平衡处理以及时序泛化策略。该数据集还被整合进TweetNLP生态系统,促进了工具的统一与标准化。部分工作进一步将主题分类与命名实体识别等任务结合,深化了对推特语义结构的理解。这些衍生成果共同推动了社交媒体自然语言处理技术的进步,并为后续跨语言、多模态扩展提供了基础。
以上内容由遇见数据集搜集并总结生成



