emoji-sentiment-dataset

github2024-01-23 更新2024-05-31 收录

下载链接：

https://github.com/snakers4/emoji-sentiment-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个平衡的多语言in-the-wild情感数据集，用于测试各种NLP模型和/或词/子词分词技术的质量。

A balanced multilingual in-the-wild sentiment dataset designed for testing the quality of various NLP models and/or word/subword tokenization techniques.

创建时间：

2019-05-16

原始信息汇总

数据集概述

数据集内容

语言	样本大小	词汇量（单词）	词汇量（N-gram）	语系	字母系统	母语使用者数量
韩语 (ko)	198,561	516,021	1,862,406	韩国语系	韩文字母	77
阿拉伯语 (ar)	199,993	287,578	1,428,286	亚非语系	阿拉伯字母	300
土耳其语 (tr)	199,993	203,657	687,284	突厥语系	拉丁字母	80
俄语 (ru)	241,117	172,653	812,315	印欧语系	西里尔字母	150
西班牙语 (es)	299,995	117,629	498,977	印欧语系	拉丁字母	480
印尼语 (id)	199,357	100,272	458,047	南岛语系	拉丁字母	43
法语 (fr)	299,995	99,631	476,360	印欧语系	拉丁字母	77
德语 (de)	184,109	99,213	516,005	印欧语系	拉丁字母	90
英语 (en)	299,995	95,666	523,046	印欧语系	拉丁字母	400
意大利语 (it)	210,703	95,604	398,091	印欧语系	拉丁字母	69
泰语 (th)	349,995	73,425	558,911	侗台语系	泰文字母	30

数据集下载

精选/预处理/平衡数据集：链接 - 540MB;
原始数据集：链接 - 2.4 GB;

数据集方法论

从archive team下载并处理推文档案；
过滤特定Twitter内容（转发、标签、引用等）；
使用FastText预测语言并选择高置信度（80-90%+）的项目；
选择符合以下条件的推文：
- 包含TorchMoji / DeepMoji使用的64个表情符号之一；
- 不包含其他表情符号；
- 只有一个连续的表情符号块；
- 每条推文只有一种类型的表情符号；
数据集预处理和平衡；

许可证

双许可证，cc-by-nc和商业使用需与数据集作者协商。

搜集汇总

数据集介绍

构建方式

emoji-sentiment-dataset的构建基于Twitter平台上的公开推文数据，通过自动化流程进行处理。首先，从Archive Team获取推文存档，并使用FastText进行语言识别，筛选出高置信度的推文。随后，过滤掉包含特定Twitter内容（如转发、标签等）的推文，并选择仅包含TorchMoji/DeepMoji中使用的64个表情符号的推文。这些推文需满足单一表情符号、无其他表情符号干扰等条件。最后，对数据集进行预处理和平衡，确保其适用于多语言情感分析模型的测试。

特点

该数据集的显著特点在于其多语言性和情感分析的针对性。涵盖了包括韩语、阿拉伯语、土耳其语等在内的多种语言，每种语言的样本量均经过精心平衡，确保数据集的多样性和代表性。此外，数据集专注于特定表情符号的使用，避免了多表情符号的干扰，使得情感分析更加精确。数据集的预处理步骤确保了推文内容的纯净性，为模型训练提供了高质量的输入。

使用方法

使用emoji-sentiment-dataset时，用户可直接下载预处理后的数据集文件，该文件已平衡并去除了不必要的Twitter内容。数据集适用于测试和训练多语言情感分析模型，尤其是针对表情符号情感分析的模型。用户可根据需求选择使用完整数据集或经过筛选的子集，结合相应的NLP模型进行训练和评估。数据集的双重许可模式允许非商业和商业用途，但商业使用需与数据集作者达成协议。

背景与挑战

背景概述

随着深度学习在自然语言处理（NLP）领域的迅速发展，情感分析成为了一个备受关注的研究方向。emoji-sentiment-dataset数据集的创建源于DeepMoji和TorchMoji项目的成功，旨在利用Twitter这一开放平台上的自标注数据，构建一个多语言、平衡的情感分析数据集。该数据集由多个研究人员和机构共同开发，涵盖了包括韩语、阿拉伯语、土耳其语等在内的多种语言，旨在测试不同NLP模型和分词技术的性能。通过收集和处理Twitter上的推文，数据集不仅丰富了情感分析的研究资源，还为跨语言情感分析提供了宝贵的数据支持。

当前挑战

构建emoji-sentiment-dataset数据集面临多项挑战。首先，数据来源的多样性和语言的复杂性使得数据清洗和预处理变得尤为复杂，需过滤掉推文中的特定内容如转发、标签等，并确保语言识别的准确性。其次，数据集的平衡性要求在不同语言和情感类别之间进行精细调整，以避免模型训练中的偏差。此外，由于数据集依赖于Twitter这一动态平台，数据的实时性和更新频率也是一个持续的挑战。最后，跨语言情感分析的准确性依赖于对不同语言文化背景的理解，这对模型的泛化能力提出了更高的要求。

常用场景

经典使用场景

emoji-sentiment-dataset 数据集的经典使用场景主要集中在情感分析领域，尤其是在多语言环境下的情感分类任务中。该数据集通过从Twitter上收集的带有表情符号的推文，为研究人员提供了一个多语言、多文化的情感标注数据资源。通过分析这些推文中的表情符号及其对应的情感极性，研究者可以训练和评估各种自然语言处理（NLP）模型，特别是那些专注于情感分析和跨语言情感识别的模型。

解决学术问题

该数据集解决了多语言情感分析中的关键学术问题，特别是在跨文化背景下表情符号的情感表达差异。通过提供一个平衡的多语言数据集，它帮助研究者克服了在不同语言和文化中情感标注数据稀缺的问题，从而推动了多语言情感分析模型的发展。此外，该数据集还为研究表情符号在不同语言中的情感映射提供了宝贵的资源，有助于深入理解表情符号在跨文化交流中的作用。

衍生相关工作

基于emoji-sentiment-dataset，许多相关的经典工作得以展开，特别是在多语言情感分析和表情符号研究领域。例如，研究者们利用该数据集开发了多种跨语言情感分类模型，提升了模型在不同语言环境下的泛化能力。此外，该数据集还激发了对表情符号情感映射的深入研究，推动了表情符号在情感计算和自然语言处理中的应用。这些衍生工作不仅丰富了情感分析领域的研究内容，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成