Gesture Emoji Twitter Corpus

github2022-05-18 更新2024-05-31 收录

下载链接：

https://github.com/mzhukovaucsb/emoji_gestures

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了2021年夏季收集的超过500,000条包含31种手势表情符号及其肤色变体的推文，分别以俄语和英语编译。这些数据集为表情符号和手势研究领域的学者提供了丰富的研究材料，用于分析表情符号在计算机媒介通信中的功能和影响。

This dataset comprises over 500,000 tweets collected during the summer of 2021, featuring 31 types of gesture emojis and their skin tone variants, compiled in both Russian and English. It offers a wealth of research material for scholars in the fields of emoji and gesture studies, facilitating the analysis of the functions and impacts of emojis in computer-mediated communication.

创建时间：

2021-09-03

原始信息汇总

数据集概述

数据集名称

Gesture Emoji Twitter Corpus

数据集内容

Emoji类型：包含31种手势表情符号及其肤色变体。
语言：英语和俄语。
时间范围：2021年5月至8月。
地理位置：
- 英语数据集：美国加州，包括San Jose和Los Angeles周边250km和200km范围内。
- 俄语数据集：俄罗斯莫斯科及其周边50km范围内。

数据集规模

英语数据集：479,193条推文。
俄语数据集：48,838条推文。

数据集结构

英语数据集：包含11个字段，包括预处理后的推文文本、所有表情符号列表、所有标签列表、用户编码、位置编码等。
俄语数据集：同样包含11个字段，包括预处理后的推文文本、所有表情符号列表、所有标签列表、用户编码、位置编码等。

数据收集与预处理

收集工具：使用Python的tweepy库进行推文收集。
预处理工具：使用Python库re, preprocessor, emoji, regex, string, nltk进行文本预处理，包括标签、URL、提及的提取和文本的标准化处理。

数据集用途

用于研究表情符号在计算机媒介通信中的功能，社交媒体用户通过表情符号的自我表达，以及表情符号使用与对话中伴随语言手势使用之间的关系。

数据集访问

数据集可通过请求获取，存储于Zenodo平台供公众使用。

搜集汇总

数据集介绍

构建方式

Gesture Emoji Twitter Corpus数据集的构建始于2021年夏季，通过Python的tweepy库收集了超过50万条包含31种手势表情符号及其肤色变体的推文。这些推文主要来自英语和俄语用户，涵盖了特定地理区域（如加利福尼亚和莫斯科）。数据收集后，使用Python库如re、preprocessor、emoji、regex、string和nltk进行文本预处理，包括去除标点、转换为小写、标记化等步骤，最终形成两个包含预处理推文的数据集。

使用方法

Gesture Emoji Twitter Corpus数据集适用于多种研究场景，包括但不限于计算机中介传播分析、表情符号功能研究、社交媒体用户自我表达分析等。研究者可以通过访问数据集的Zenodo链接获取数据，并使用提供的Python代码进行数据处理和分析。数据集的结构清晰，包含预处理后的推文文本、表情符号列表、标签、用户编码等信息，便于进行深入的定量和定性分析。

背景与挑战

背景概述

表情符号自20年前开始在互联网用户中使用以来，表情符号研究的多学科领域也随之迅速发展。Gesture Emoji Twitter Corpus数据集由研究人员在2021年夏季创建，旨在探索表情符号手势在计算机中介通信中的功能，以及这些手势如何影响社交媒体用户的自我表达。该数据集包含了超过50万条包含31种手势表情符号及其肤色变体的推文，涵盖英语和俄语两种语言。通过这一数据集，研究者能够深入分析表情符号在不同文化背景下的使用模式，并为计算机中介话语分析提供丰富的实例。

当前挑战

该数据集面临的挑战主要集中在数据收集和预处理的复杂性上。首先，从Twitter上收集大量包含特定表情符号的推文需要高效的爬虫技术和对Twitter API的深入理解。其次，推文的预处理涉及多种文本处理任务，如去除标点、转换大小写、标记化等，这些步骤需要精确的算法以确保数据质量。此外，跨语言分析也带来了文化差异和语言特性的挑战，研究者需考虑如何在这些差异中找到共性和规律。

常用场景

经典使用场景

Gesture Emoji Twitter Corpus 数据集的经典使用场景主要集中在计算机中介传播（CMC）领域的研究中。该数据集通过收集和分析包含31种手势表情符号及其肤色变体的推文，为研究者提供了丰富的语料库，用于探讨表情符号在社交媒体中的功能和意义。研究者可以利用该数据集进行表情符号的功能分析、用户自我表达的构建研究，以及表情符号与面对面交流中的手势使用之间的关联性探讨。

解决学术问题

Gesture Emoji Twitter Corpus 数据集解决了表情符号研究中的多个关键学术问题。首先，它为研究表情符号在计算机中介传播中的功能提供了实证数据，帮助学者理解表情符号如何增强或替代文本表达情感。其次，该数据集支持研究社交媒体用户通过手势表情符号构建自我表达的方式，揭示了表情符号在个人身份和社会互动中的作用。此外，该数据集还为探讨表情符号使用与面对面交流中手势使用的关系提供了基础，推动了跨学科研究的发展。

实际应用

Gesture Emoji Twitter Corpus 数据集在实际应用中具有广泛的前景。首先，它可以用于社交媒体平台的情感分析和用户行为预测，帮助企业优化用户体验和内容推荐算法。其次，该数据集可应用于语言学和传播学的教学与研究，为学生和学者提供实证数据支持。此外，该数据集还可用于开发和测试自然语言处理（NLP）模型，特别是在处理多模态数据（如文本和表情符号）时，提升模型的准确性和鲁棒性。

数据集最近研究