five

Tweebank V2

收藏
arXiv2022-05-11 更新2024-06-21 收录
下载链接:
https://github.com/social-machines/TweebankNLP
下载链接
链接失效反馈
官方服务:
资源简介:
Tweebank V2是由麻省理工学院建设性沟通中心创建的一个包含3,550条标注的匿名英语推文的数据集,这些推文按照Universal Dependencies进行标注。该数据集主要用于社交媒体文本的自然语言处理系统的训练和微调。数据集内容包括短文本、噪声和口语化特征,适用于多任务学习模型,如POS标注、依存句法分析和命名实体识别。创建过程中,研究团队通过Amazon Mechanical Turk进行命名实体的标注,并评估了标注质量。该数据集的应用领域广泛,包括意见挖掘、社会文化分析和语言变异研究,旨在解决社交媒体文本处理中的挑战。

Tweebank V2 is a dataset of 3,550 annotated, anonymized English tweets created by the MIT Center for Constructive Communication, with all tweets annotated in accordance with the Universal Dependencies framework. This dataset is primarily used for training and fine-tuning natural language processing (NLP) systems targeting social media text. Containing short texts, noise and colloquial linguistic features, the dataset is suitable for multi-task learning models for tasks including part-of-speech (POS) tagging, dependency parsing and named entity recognition (NER). During the dataset development, the research team conducted named entity annotation via Amazon Mechanical Turk and evaluated the annotation quality. This dataset has broad application areas, including opinion mining, socio-cultural analysis and language variation research, and aims to address the core challenges in social media text processing.
提供机构:
麻省理工学院建设性沟通中心
创建时间:
2022-01-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作