five

Emoji Prediction Datasets|表情预测数据集|自然语言处理数据集

收藏
arXiv2020-07-15 更新2024-06-21 收录
表情预测
自然语言处理
下载链接:
https://github.com/hikari-NYU/Emoji_Prediction_Datasets_MMS
下载链接
链接失效反馈
资源简介:
本数据集名为Emoji Prediction Datasets,由达特茅斯学院的研究团队创建,主要用于表情预测任务。数据集包含来自Twitter的1,480,685条推文,每条推文平均包含1.89个表情符号。创建过程中,研究团队首先从Twitter收集数据,然后通过手动设计的启发式方法进行标注。该数据集主要应用于自然语言处理领域,旨在通过预测文本中适当的表情符号,帮助模型学习文本的交流意图,特别是在情感预测、情感分析和讽刺检测等任务中。
提供机构:
达特茅斯学院
创建时间:
2020-07-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
Emoji Prediction Datasets 数据集通过从Twitter上收集的推文构建,利用启发式方法对推文中的表情符号进行标注。数据集包含了多个子集,分别对应不同的表情符号标签集,标签集的大小从20到300不等。每个子集都经过预处理,去除了不相关的表情符号和空推文,并根据标签的频率进行了采样和平衡处理,以确保数据集的质量和多样性。
特点
该数据集的特点在于其多样化的表情符号标签集和多标签分类设置,允许模型在更细粒度的层面上进行评估。数据集中的推文内容丰富,涵盖了多种语言和表达方式,使得模型能够学习到不同情境下的表情符号使用模式。此外,数据集还考虑了表情符号的频率分布,确保了模型在处理常见和罕见表情符号时的平衡性。
使用方法
Emoji Prediction Datasets 数据集适用于表情符号预测任务,支持多类和多标签分类设置。研究者可以使用该数据集训练和评估基于Transformer的模型,如BERT,以预测给定文本最合适的表情符号。数据集的多样性和高质量标注使其成为表情符号预测任务的标准基准,有助于推动相关领域的研究进展。
背景与挑战
背景概述
表情符号预测数据集(Emoji Prediction Datasets)由达特茅斯学院的Weicheng Ma、Ruibo Liu、Lili Wang和Soroush Vosoughi于2020年创建。该数据集的核心研究问题是通过文本预测适当的表情符号,旨在捕捉文本的情感和意图。表情符号在社交媒体中的广泛使用使其成为理解用户生成内容的重要工具。该数据集通过扩展表情符号的种类并引入多标签分类设置,提升了表情符号预测任务的复杂性和表达能力。研究团队基于Transformer网络构建了新型模型,并使用BERT模型在多个数据集上取得了最先进的性能,显著提升了预测的准确性和F1分数。该数据集的发布为表情符号预测任务的标准化评估和模型比较提供了基础,推动了自然语言处理领域的发展。
当前挑战
表情符号预测任务面临的主要挑战包括数据的可获得性和质量问题。由于社交媒体平台对数据共享的限制,现有的社交媒体语料库通常规模较小且难以更新,导致数据集的时效性和完整性不足。此外,手动标注大规模数据集不可行,现有的标注方法依赖于启发式规则,容易引入噪声,尤其是在用户随机使用表情符号或输入错误的情况下。数据不平衡问题也显著影响模型的训练效果,某些高频表情符号的出现频率远高于其他表情符号,导致模型对稀有表情符号的预测能力较弱。最后,表情符号的多义性和相似性增加了模型区分和预测的难度,尤其是在多标签分类设置下,模型需要更精细地理解文本与表情符号之间的复杂关系。
常用场景
经典使用场景
Emoji Prediction Datasets 的经典使用场景主要集中在自然语言处理领域,特别是在情感分析、情绪预测和讽刺检测等任务中。通过预测文本中适当的表情符号,模型能够更好地理解文本的情感倾向和沟通意图。例如,在社交媒体分析中,预测表情符号可以帮助识别用户的情感状态,从而为情感分析和舆情监控提供支持。
解决学术问题
Emoji Prediction Datasets 解决了表情符号预测任务中的多个学术问题。首先,它扩展了表情符号的类别,允许多标签分类,从而更准确地捕捉文本的复杂情感表达。其次,该数据集通过提供标准化的评估基准,解决了表情符号预测任务中数据集不统一和评估标准不一致的问题。这为研究人员提供了一个公平的比较平台,推动了表情符号预测任务的发展。
衍生相关工作
Emoji Prediction Datasets 的发布催生了许多相关研究工作。首先,基于 Transformer 的模型(如 BERT)在该数据集上的成功应用,展示了其在表情符号预测任务中的强大能力,推动了 Transformer 模型在自然语言处理领域的广泛应用。其次,该数据集的多标签分类设置为表情符号预测任务提供了新的研究方向,激发了更多关于多标签分类和情感分析的研究。此外,该数据集的发布还促进了社交媒体数据分析和情感计算领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录

Papersnake/people_daily_news

人民日报(1946-2023)数据集是CialloCorpus的一部分。

hugging_face 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录