five

Chinese PIEA datasets|个性化情感分析数据集|图神经网络数据集

收藏
arXiv2024-12-10 更新2024-12-12 收录
个性化情感分析
图神经网络
下载链接:
http://arxiv.org/abs/2412.07367v1
下载链接
链接失效反馈
资源简介:
本研究创建了两个中文个性化隐式情感分析(PIEA)数据集,旨在解决现有数据集缺乏用户相关信息的问题。这些数据集包含了用户的属性、社交关系和历史帖子,涵盖了隐式和显式情感。数据集的创建过程结合了大规模语言模型(LLM)和图神经网络(GNN)技术,模拟了读者的反应和情感传播。这些数据集主要应用于个性化隐式情感分析任务,旨在通过引入读者反馈信息,提升作者隐式情感识别的准确性。
提供机构:
山西大学
创建时间:
2024-12-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese PIEA datasets的构建基于大规模的中文微博数据,涵盖了3,503名用户及其历史帖子、用户属性以及5,927条社交关系。该数据集通过详细的情感标注,包括7种隐式情感类型,并由两名标注员独立完成,确保了标注的一致性。为了增强数据集的多样性和平衡性,研究团队还通过情感字典过滤出仅包含隐式情感的子集,并使用在线大型语言模型ChatGLM生成增强数据,进一步丰富了训练集的内容。
特点
Chinese PIEA datasets的显著特点在于其丰富的用户元数据,包括用户属性、社交关系和历史帖子,这些信息为个性化隐式情感分析提供了坚实的基础。此外,数据集不仅关注文本内容的情感标注,还引入了读者反馈信息的模拟,通过构建读者代理来模拟读者的反应,从而弥补了传统数据集在读者信息方面的不足。这种多维度的数据结构使得该数据集在情感分析任务中具有更高的复杂性和实用性。
使用方法
Chinese PIEA datasets可用于训练和评估个性化隐式情感分析模型,特别是那些需要考虑读者反馈和用户特定信息的模型。研究者可以通过该数据集进行情感分类、情感传播建模以及用户行为分析等任务。在使用时,建议结合图神经网络(GNN)等复杂模型,以充分利用数据集中的多维信息。此外,数据集的增强数据部分可以用于数据不平衡问题的处理,提升模型在识别少数情感类别时的表现。
背景与挑战
背景概述
近年来,隐式情感分析(Implicit Emotion Analysis, IEA)在自然语言处理领域引起了广泛关注,其核心任务是从缺乏显式情感表达的文本中推断情感。然而,现有研究多聚焦于作者维度的情感分析,忽略了读者对隐式情感反应的潜在影响。为此,Jian Liao等人于2024年提出了个性化隐式情感分析(Personalized Implicit Emotion Analysis, PIEA)任务,并创建了两个中文PIEA数据集,旨在通过引入读者反馈信息来增强情感分析的准确性。该数据集由山西大学的研究团队开发,包含详细的元数据,涵盖用户属性、社交关系和历史发帖等信息,为隐式情感分析提供了更为全面的视角。
当前挑战
在构建中文PIEA数据集的过程中,研究团队面临了多个挑战。首先,获取读者对作者内容的反馈信息存在困难,尤其是在社交媒体环境中,许多读者可能不会公开表达意见,导致数据不完整。其次,如何有效模拟多个读者之间的相互影响也是一个复杂问题,尤其是在读者信息稀疏的情况下。最后,现有情感分析数据集通常仅关注文本内容的情感标注,缺乏用户相关信息,这限制了个性化情感分析的发展。为应对这些挑战,研究团队提出了基于大语言模型的读者代理和角色感知的情感传播图学习模型,以解决数据稀疏和情感传播建模的问题。
常用场景
经典使用场景
Chinese PIEA datasets 主要用于个性化隐式情感分析(PIEA)任务,旨在通过结合用户特定的信息来提升对隐式情感的识别能力。该数据集通过模拟读者反应和建立读者传播角色系统,解决了传统隐式情感分析中忽视读者反馈的问题。经典的使用场景包括社交网络中的情感传播分析、用户行为建模以及个性化情感预测等。
衍生相关工作
基于 Chinese PIEA datasets,研究者们开发了多种模型和方法,如 RAPPIE 模型,该模型通过模拟读者反应和角色传播系统,显著提升了隐式情感分析的性能。此外,该数据集还激发了大量关于个性化情感分析、情感传播建模和社交网络分析的研究工作,推动了情感计算领域的进一步发展。
数据集最近研究
最新研究方向
近年来,个性化隐式情感分析(PIEA)在自然语言处理领域引起了广泛关注。该领域的最新研究方向主要集中在通过引入读者反馈信息来增强隐式情感分析的准确性。研究者们提出了基于大型语言模型(LLM)的读者代理技术,通过模拟读者的反应来解决数据不完整和沉默螺旋效应的问题。此外,研究还构建了读者传播角色系统,并开发了多视角图学习模型,以有效处理读者信息的稀疏性。通过标注包含详细用户元数据的中文PIEA数据集,研究显著提升了模型的性能,展示了将读者反馈纳入情感分析过程的重要性和有效性。
相关研究论文
  • 1
    My Words Imply Your Opinion: Reader Agent-Based Propagation Enhancement for Personalized Implicit Emotion Analysis山西大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录