Twitter corpus of Resource-Scarce Languages for Sentiment Analysis and Multilingual Emoji Prediction

Name: Twitter corpus of Resource-Scarce Languages for Sentiment Analysis and Multilingual Emoji Prediction
Creator: figshare
Published: 2020-08-29 10:00:30
License: 暂无描述

DataCite Commons2020-08-29 更新2024-07-27 收录

下载链接：

https://figshare.com/articles/Twitter_corpus_of_Resource-Scarce_Languages_for_Sentiment_Analysis_and_Multilingual_Emoji_Prediction/6477782/1

下载链接

链接失效反馈

官方服务：

资源简介：

This dataset is created by leveraging the social media platforms such as twitter for developing corpus across multiple languages. The corpus creation methodology is applicable for resource-scarce languages provided the speakers of that particular language are active users on social media platforms. We present an approach to extract social media microblogs such as tweets (Twitter). We created corpus for multilingual sentiment analysis and emoji prediction in Hindi, Bengali and Telugu. Further, we perform and analyze multiple NLP tasks utilizing the corpus to get interesting observations.

本数据集依托Twitter等社交媒体平台采集构建，旨在生成多语言语料库。该语料库构建方法适用于低资源语言，前提是该语言的母语使用者为社交媒体平台的活跃用户。我们提出了一种提取Twitter等社交媒体平台推文内容的方法。我们针对印地语、孟加拉语与泰卢固语，构建了用于多语言情感分析及表情符号预测的语料库。此外，我们利用该语料库开展并分析了多项自然语言处理（Natural Language Processing, NLP）任务，得到了若干值得关注的观测结果。

提供机构：

figshare

创建时间：

2018-06-11

5,000+

优质数据集

54 个

任务类型

进入经典数据集