community-datasets/tamilmixsentiment
收藏数据集描述
数据集摘要
Tamilmixsentiment 是第一个包含 15,744 条 YouTube 评论的泰米尔-英语代码混合、情感标注的金标准语料库。这是针对这种相对低资源的语言中代码混合现象的最大通用领域情感数据集。每条评论/帖子可能包含多个句子,但语料库的平均句子长度为 1。每条评论/帖子在评论/帖子级别上标注了情感极性。该数据集还存在类别不平衡问题,反映了现实世界的情况。
支持的任务和排行榜
该数据集用于识别从社交媒体收集的泰米尔-英语代码混合评论/帖子的情感极性。
语言
泰米尔-英语代码混合。数据集包含三种类型的代码混合句子:句间切换、句内切换和标签切换。大多数评论使用罗马字母书写,要么是泰米尔语法与英语词汇混合,要么是英语语法与泰米尔词汇混合。一些评论使用泰米尔字母书写,中间夹杂英语表达。
数据集结构
数据实例
一个来自 Tamilmixsentiment 训练集的示例如下:
text label Trailer late ah parthavanga like podunga Positive
数据字段
text:泰米尔-英语代码混合评论。label:可能的情感列表,包括 "Positive", "Negative", "Mixed_feelings", "unknown_state", "not-Tamil"。
数据分割
整个 15,744 句的数据集被随机打乱并分为三个部分:
| train | validation | test | |
|---|---|---|---|
| Tamilmixsentiment | 11335 | 1260 | 3149 |
数据集创建
策划理由
情感分析在社交媒体研究中变得重要(Yang and Eisenstein, 2017)。直到最近,这些应用主要针对高资源语言,分析单语语句。但在多语种社区的社交媒体中,代码混合文本更为常见。代码混合在双语语言社区中很常见。由于英语被视为有声望和教育的语言,英语词汇、连接词和短语在泰米尔语中的影响很常见。泰米尔语在代码混合场景中几乎没有标注数据。为单语数据开发的标注语料库无法处理代码混合的使用,因此由于语言在不同层次的语言分析中的混合,它无法产生良好的结果。因此,创建了这个泰米尔-英语代码混合情感标注语料库。
源数据
初始数据收集和规范化
数据从 YouTube 上抓取。总共从 2019 年发布的电影预告片的 YouTube 评论中收集了 184,573 句泰米尔语。其中许多句子要么完全用英语书写,要么是泰米尔-英语代码混合,要么完全用泰米尔语书写。因此,我们使用 langdetect 库在评论级别上基于语言识别过滤掉非代码混合语料库。如果评论完全用泰米尔语或英语书写,我们丢弃该评论,因为这些语言的单语资源是可用的。我们还识别了句子是否用其他语言书写,如印地语、马拉雅拉姆语、乌尔都语、泰卢固语和卡纳达语。我们通过删除表情符号并应用句子长度过滤器对评论进行了预处理。我们希望创建一个合理大小的代码混合语料库,这些句子的情感定义明确,对未来的研究有用。因此,我们的过滤器删除了少于五个单词和多于 15 个单词的句子,在清理数据后。最终我们得到了 15,744 句泰米尔语句子。
源语言生产者是谁?
YouTube 用户
标注
标注过程
标注过程分三个步骤完成。首先,每句话由两个人标注。在第二步中,如果两人达成一致,则收集数据。在冲突情况下,第三个人标注句子。在第三步中,如果三个人都不一致,则再由两个标注者标注句子。
标注者是谁?
共有 11 名志愿者参与了这一过程。他们都是泰米尔语的母语者,性别、教育水平和学校教育中的教学媒介多样化。
附加信息
引用信息
@inproceedings{chakravarthi-etal-2020-corpus, title = "Corpus Creation for Sentiment Analysis in Code-Mixed {T}amil-{E}nglish Text", author = "Chakravarthi, Bharathi Raja and Muralidaran, Vigneshwaran and Priyadharshini, Ruba and McCrae, John Philip", booktitle = "Proceedings of the 1st Joint Workshop on Spoken Language Technologies for Under-resourced languages (SLTU) and Collaboration and Computing for Under-Resourced Languages (CCURL)", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources association", url = "https://www.aclweb.org/anthology/2020.sltu-1.28", pages = "202--210", abstract = "Understanding the sentiment of a comment from a video or an image is an essential task in many applications. Sentiment analysis of a text can be useful for various decision-making processes. One such application is to analyse the popular sentiments of videos on social media based on viewer comments. However, comments from social media do not follow strict rules of grammar, and they contain mixing of more than one language, often written in non-native scripts. Non-availability of annotated code-mixed data for a low-resourced language like Tamil also adds difficulty to this problem. To overcome this, we created a gold standard Tamil-English code-switched, sentiment-annotated corpus containing 15,744 comment posts from YouTube. In this paper, we describe the process of creating the corpus and assigning polarities. We present inter-annotator agreement and show the results of sentiment analysis trained on this corpus as a benchmark.", language = "English", ISBN = "979-10-95546-35-1", }
贡献
感谢 @jamespaultg 添加此数据集。



