VISTA
收藏arXiv2025-04-21 更新2025-04-23 收录
下载链接:
http://arxiv.org/abs/2504.15072v1
下载链接
链接失效反馈官方服务:
资源简介:
VISTA数据集由西安交通大学利物浦大学等机构创建,包含159个热门话题相关的47,207个帖子、327,015条二级评论和29,578条三级评论。数据覆盖政治、娱乐、体育、健康和医学等多个领域,注释有11种情感标签,并明确定义了层次关系。该数据集旨在全面捕捉多级评论结构和多个热门话题之间的相互影响,为动态舆论分析研究提供支持。
The VISTA dataset was developed by institutions including Xi'an Jiaotong-Liverpool University. It comprises 47,207 posts, 327,015 secondary comments, and 29,578 tertiary comments associated with 159 trending topics. Covering diverse domains such as politics, entertainment, sports, health and medicine, the dataset is annotated with 11 sentiment labels and has explicitly defined hierarchical relationships. Its core objective is to comprehensively capture multi-level comment structures and the mutual influences among multiple trending topics, providing support for research on dynamic public opinion analysis.
提供机构:
西安交通大学利物浦大学
创建时间:
2025-04-21
搜集汇总
数据集介绍

构建方式
在社交媒体舆论动态分析领域,VISTA数据集的构建采用了多维度采集策略。研究团队从微博平台实时采集了2024年至2025年初的热点事件评论数据,通过关键词和事件列表追踪完整的舆论周期。数据处理阶段采用了去重、格式标准化和多语言检测等技术手段,同时运用哈希映射和索引技术重建了三级评论的树状层次结构。为确保情感标注的准确性,团队先采用GLM-4-plus模型进行自动标注,再通过人工复核和提示工程进行校正,最终情感标注的Cohen's Kappa系数达到0.85,体现了高质量的数据标注流程。
特点
VISTA数据集作为多尺度舆论分析资源具有显著特征优势。该数据集包含159个热点话题的完整生命周期数据,涵盖47,207条主帖、327,015条二级评论和29,578条三级评论,形成了具有明确层级关系的树状结构。内容维度覆盖政治、娱乐、体育、健康等多个领域,并标注了11类细粒度情感标签。与现有数据集相比,VISTA独特地整合了多层次评论结构、跨话题相互影响关系和完整的时间演化轨迹,为研究舆论传播的时空动态提供了全面支持。
使用方法
该数据集支持复杂的舆论动态建模任务。在使用方法上,研究者可采用高维霍克斯过程与图神经网络相结合的框架,其中时间维度通过霍克斯过程建模评论到达的时空模式,结构维度则利用图神经网络捕捉节点间的传播路径。具体实施时,需将每条评论映射到(层级,情感)二维空间,通过强度函数预测特定时间窗口内的评论数量分布。节点分类任务可预测评论情感倾向,边预测任务则可推断评论间的传播关系,最终通过联合优化情感预测损失和结构一致性损失实现端到端的舆论传播建模。
背景与挑战
背景概述
VISTA数据集是由Xi’an Jiaotong-Liverpool University、Mohamed bin Zayed University of Artificial Intelligence等机构的研究团队于2025年提出的,旨在解决社交媒体中公众意见动态传播的复杂性问题。该数据集包含159个热门话题,涵盖47,207篇帖子、327,015条二级评论和29,578条三级评论,涉及政治、娱乐、体育、健康等多个领域。VISTA不仅提供了详细的情感标签(11个类别),还明确了评论间的层次关系,为研究公众意见的动态传播提供了全面的数据支持。该数据集的推出填补了现有数据在多级评论结构、跨话题相互影响及完整生命周期覆盖等方面的空白,显著推动了社交媒体意见传播建模的研究进展。
当前挑战
VISTA数据集面临的挑战主要体现在两个方面:领域问题挑战方面,传统模型难以有效捕捉社交媒体中公众意见的复杂互动,特别是多级评论结构、跨话题相互影响以及时间动态性等问题;构建过程挑战方面,数据收集需覆盖完整的意见生命周期,处理多级评论的树状结构,确保情感标注的准确性,并解决不同话题间的相互影响建模问题。此外,数据还需经过去重、格式标准化、敏感信息过滤等多重处理步骤,这些都对数据集的构建提出了较高要求。
常用场景
经典使用场景
在社交媒体舆情分析领域,VISTA数据集通过整合多维霍克斯过程与图神经网络,为研究者提供了分析复杂舆情传播动态的完整框架。该数据集特别适用于建模多层级评论结构中的情感传播路径,捕捉从根帖到三级回复的完整对话链条,以及不同话题间的交叉影响机制。其包含的47,207条主帖与35万条层级化评论,覆盖政治、娱乐等多元领域,为研究舆情传播的时空演化规律提供了标准化实验平台。
衍生相关工作
该数据集已衍生出多个标志性研究方向:在方法论层面,启发了时空图卷积网络与神经霍克斯过程的融合架构创新;在应用层面催生了面向虚假信息检测的多模态情感传播分析工具。相关研究团队进一步扩展了数据集的时间跨度和语言种类,构建了包含多平台数据的VISTA-2.0版本,推动了跨文化舆情比较研究的发展。
数据集最近研究
最新研究方向
近年来,随着社交媒体的快速发展,公众意见传播的动态性和复杂性引起了广泛关注。VISTA数据集作为一个多尺度、多层次的情感标注数据集,为研究者提供了一个全面分析公众意见传播的工具。该数据集的最新研究方向主要集中在结合高维Hawkes过程和图神经网络(GNN)来建模意见传播的时空动态性。通过捕捉不同层级评论之间的情感传播路径和时间演化模式,该方法不仅提升了预测准确性,还增强了模型的可解释性。此外,VISTA数据集涵盖了政治、娱乐、体育等多个领域的热点话题,为跨领域意见传播研究提供了丰富的数据支持。这一研究方向在舆情监控、社交媒体分析等领域具有重要的应用价值,为理解复杂社交网络中的意见形成和传播机制提供了新的视角。
相关研究论文
- 1Rhythm of Opinion: A Hawkes-Graph Framework for Dynamic Propagation Analysis西安交通大学利物浦大学 · 2025年
以上内容由遇见数据集搜集并总结生成



