five

PTSM

收藏
arXiv2022-05-07 更新2024-06-21 收录
下载链接:
https://github.com/chiyuzhang94/PTSM
下载链接
链接失效反馈
官方服务:
资源简介:
PTSM是一个为理解社交意义而设计的持久性Twitter数据集,由英属哥伦比亚大学深度学习与自然语言处理组创建。该数据集包含17个子数据集,涵盖10种不同的社交意义任务,如情感识别、讽刺检测等。数据集通过使用先进的转换器模型生成句子级释义来增强其可访问性。创建过程中,研究人员利用Twitter API收集数据,并通过规范化处理保护用户隐私。PTSM数据集旨在解决社交媒体研究中的数据衰减问题,提供一个可持久访问的资源,用于训练和评估社交意义理解系统。

PTSM is a persistent Twitter dataset designed for understanding social meanings, created by the Deep Learning and Natural Language Processing Group at the University of British Columbia. This dataset comprises 17 sub-datasets covering 10 distinct social meaning tasks, including sentiment recognition, sarcasm detection, and more. To enhance its accessibility, the dataset leverages state-of-the-art Transformer models to generate sentence-level paraphrases. During its development, researchers collected data via the Twitter API and applied normalization procedures to protect user privacy. The PTSM dataset aims to address the issue of data decay in social media research, providing a persistently accessible resource for training and evaluating social meaning understanding systems.
提供机构:
英属哥伦比亚大学深度学习与自然语言处理组
创建时间:
2022-04-10
搜集汇总
背景与挑战
背景概述
PTSM是一个用于学习社交意义的持久推特数据集,获得了ICWSM-2022最佳论文奖。该数据集专注于推特文本的改写任务,并提供了一个基于T5-base的预训练改写模型,该模型在多个领域的数据集上进行了微调,以生成多样化的改写示例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作