cardiffnlp/tweet_topic_single
收藏Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cardiffnlp/tweet_topic_single
下载链接
链接失效反馈官方服务:
资源简介:
这是TweetTopic数据集的官方存储库,该数据集用于Twitter上的主题分类,包含6个标签。每个实例都带有时间戳,时间跨度为2019年9月至2021年8月。数据集经过预处理,包括将URL转换为特殊标记`{{URL}}`,非验证用户名转换为`{{USERNAME}}`,验证用户名则替换为`{@}`。数据集分为多个子集,包括训练集、验证集和测试集,分别用于不同的时间段的模型训练和评估。数据集还集成在TweetNLP中。
提供机构:
cardiffnlp
原始信息汇总
数据集概述
基本信息
- 名称: Tweet Topic Single
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语
- 大小: 1k<10K
- 任务类别: 文本分类
- 任务ID: 情感分类
- 美观名称: TweetTopicSingle
数据集描述
- 论文: https://arxiv.org/abs/2209.09824
- 数据集: Tweet Topic Dataset
- 领域: Twitter
- 类别数: 6
数据集总结
- 官方仓库: TweetTopic,一个Twitter上的话题分类数据集,包含6个标签。
- 时间范围: 每个实例包含时间戳,数据收集自2019年9月至2021年8月。
预处理
- URL处理: 转换为特殊标记
{{URL}}。 - 用户名处理: 非验证用户名转换为
{{USERNAME}},验证用户名显示名替换为{@}。
数据分割
- 分割详情:
- 训练集:
train_2020(2858条),train_2021(1516条),train_all(4374条) - 验证集:
validation_2020(352条),validation_2021(189条) - 测试集:
test_2020(376条),test_2021(1693条)
- 训练集:
模型性能
- 模型: 多种基于Roberta的模型,训练数据为2020年和2021年的数据。
- 性能指标: F1分数、宏F1分数、准确率。
数据实例
- 示例结构: 包含文本、日期、标签、ID和标签名称。
引用信息
-
引用格式:
@inproceedings{dimosthenis-etal-2022-twitter, title = "{T}witter {T}opic {C}lassification", author = "Antypas, Dimosthenis and Ushio, Asahi and Camacho-Collados, Jose and Neves, Leonardo and Silva, Vitor and Barbieri, Francesco", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", address = "Gyeongju, Republic of Korea", publisher = "International Committee on Computational Linguistics" }
搜集汇总
数据集介绍

构建方式
在社交媒体分析领域,TweetTopicSingle数据集的构建体现了严谨的学术方法。该数据集源自2019年9月至2021年8月期间的推文集合,与TweetNER7共享同一数据源。构建过程中,研究者对原始推文进行了系统化预处理,将通用网址统一替换为特殊标记{{URL}},并将非认证用户名转换为{{USERNAME}}。对于认证账户,则采用{@displayname@}的格式进行标准化处理,有效消除了文本中的噪声干扰,为后续的标注工作奠定了纯净的文本基础。
特点
该数据集在社交媒体话题分类研究中展现出鲜明的时序特征与结构设计。其核心特点在于提供了基于时间跨度的数据划分,包含2020年度与2021年度的独立训练集、验证集和测试集,以及两者的合并版本。这种设计使研究者能够深入探究话题分布随时间推移而产生的演变规律,特别适用于验证模型在时间偏移场景下的泛化能力。数据集涵盖艺术文化、商业创业、流行文化、日常生活、体育游戏及科学技术六大类别,每个实例均附带精确的时间戳与唯一标识符,为细粒度的时序分析提供了完整支持。
使用方法
使用该数据集时,研究者可根据具体研究目标灵活选择数据划分策略。对于旨在评估模型时序泛化性能的研究,推荐采用时间偏移设定,即使用train_2020与validation_2020进行训练与验证,并在test_2021上进行最终评估。若追求模型的整体代表性,则可选用合并后的train_all与validation_201进行训练调优。数据集已集成于HuggingFace平台,用户可通过标准数据加载接口便捷访问,并参照官方提供的微调脚本进行模型训练与评估,确保实验流程与原始研究保持高度一致。
背景与挑战
背景概述
在社交媒体分析领域,推特作为全球性的实时信息平台,其文本数据蕴含丰富的公众话题与舆论动态。由卡迪夫大学自然语言处理团队于2022年创建的TweetTopicSingle数据集,旨在解决推特文本的细粒度话题分类问题,涵盖艺术文化、商业创业、流行文化、日常生活、体育游戏及科学技术六大类别。该数据集基于2019年9月至2021年8月的推特内容构建,通过严格的预处理流程规范化用户提及与链接,为自然语言处理模型提供了时序分布清晰、标注一致的训练资源,显著推动了社交媒体内容理解与话题演化分析的研究进展。
当前挑战
TweetTopicSingle数据集所应对的核心挑战在于推特文本的实时性与噪声处理。推特内容常包含非正式语言、网络用语、缩写及动态话题演变,这为模型的话题分类准确性带来严峻考验。在构建过程中,研究人员需克服数据标注的一致性难题,确保跨时段话题标签的稳定性,同时通过特殊令牌替换策略处理用户名与链接,以平衡文本语义保留与隐私保护。此外,数据集的时序划分设计旨在模拟现实世界的话题漂移现象,要求模型具备适应话题动态变化的能力,从而提升了社交媒体文本分类任务的复杂性与实用性。
常用场景
经典使用场景
在社交媒体分析领域,TweetTopicSingle数据集为短文本主题分类提供了标准化的评估基准。该数据集通过精心标注的推特文本,涵盖艺术文化、商业创业、流行文化、日常生活、体育游戏及科学技术六大主题类别,为研究者构建和验证分类模型提供了丰富素材。其经典应用场景在于利用时间划分的训练与测试集,评估模型在时序数据上的泛化能力,尤其适用于探究社交媒体话题的演变规律。
解决学术问题
该数据集有效解决了社交媒体短文本主题分类中的若干核心学术问题。针对推特文本的非正式语言特性,数据集通过规范化处理统一了用户提及与链接的表示形式,降低了噪声干扰。其时序划分设计助力研究者探索模型在时间推移下的性能衰减现象,为领域自适应与时序泛化研究提供了实证基础。同时,六类主题的平衡标注促进了多类别分类任务的公平评估,推动了自然语言处理技术在动态文本环境中的方法创新。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,其中最具代表性的是基于RoBERTa架构的系列预训练模型微调实验。这些工作系统比较了不同训练数据规模与时序划分对模型性能的影响,验证了领域自适应预训练策略的有效性。相关研究进一步探索了多任务学习框架,将主题分类与命名实体识别任务相结合,提升了模型对社交媒体文本的深层语义理解能力。这些成果为后续的跨平台短文本分析及多模态社交媒体处理研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



