five

SentiWeibo

收藏
arXiv2025-08-01 更新2025-08-05 收录
下载链接:
https://github.com/Znull-1220/SocialAlign
下载链接
链接失效反馈
官方服务:
资源简介:
SentiWeibo数据集是从真实的微博社交互动中构建的大规模数据集。该数据集包含了7,837个带有话题标签的帖子,53个主题,6,401个用户,以及476,605条历史帖子。数据集旨在解决现有公共响应预测方法的局限性,通过结合个性化响应生成和群体级情感分布建模,提供了一个更全面、更准确的公共意见理解框架。SentiWeibo数据集通过整合个人化和公共情感对齐,填补了现有资源的空白,为公共响应预测和计算社会科学研究提供了宝贵的资源。

The SentiWeibo dataset is a large-scale dataset constructed from real Weibo social interactions. It contains 7,837 topic-tagged posts, 53 distinct topics, 6,401 users, and 476,605 historical posts. This dataset aims to address the limitations of existing public response prediction methods, providing a more comprehensive and accurate framework for public opinion understanding by integrating personalized response generation and group-level emotional distribution modeling. The SentiWeibo dataset fills the gap in existing resources by aligning individual and collective emotions, serving as a valuable resource for public response prediction and computational social science research.
提供机构:
Mohamed bin Zayed University of Artificial Intelligence
创建时间:
2025-08-01
原始信息汇总

SocialAlign 数据集概述

数据集简介

  • 名称:SocialWeibo
  • 用途:用于社交媒体的微观和宏观层面公共响应预测
  • 特点
    • 首个统一框架,可同时预测现实世界在社交环境中的微观和宏观层面响应
    • 采用SocialLLM模型,具有个性化分析-组合LoRA(PAC-LoRA)结构
    • 能够生成带有相应情感的个性化评论

数据结构

  • 格式:alphca格式
  • 构建流程
    1. 组织原始数据集(去除低质量用户历史帖子,清理文本噪音)
    2. 根据给定新闻内容检索每个用户的相关帖子
    3. 根据用户历史帖子提取用户画像

数据收集

  • 来源
    • 微博搜索(Weibo Search)
    • 微博AI搜索(Weibo AI Search)
  • 工具
    • weibo-search:用于爬取微博搜索结果
    • weibo-ai-search:用于爬取微博AI搜索的帖子
    • weibo-crawler:用于爬取每个用户的个人历史帖子

相关文件

  • 数据集构建
    • organize_dataset.py:构建原始数据集
    • extract_user_persona.py:提取用户画像
    • organize_alphca_dataset.py:构建SocialWeibo数据集
  • 模型实现
    • modeling_pac_lora:包含PAC-LoRA实现代码
    • fine-tuning:包含SocialLLM和基线模型的微调脚本
    • inference:包含基线模型和SocialLLM的推理代码

使用要求

  • 依赖库
    • Transformers 4.46
    • PEFT 0.12
    • OpenAI API(用于提取用户画像)
  • 安装:执行pip install -r requirements.txt安装所需依赖
搜集汇总
数据集介绍
main_image_url
构建方式
SentiWeibo数据集构建过程严谨且系统化,基于微博平台真实社交互动数据,通过双通道采集策略确保数据多样性。研究团队首先从微博热门话题和AI搜索平台筛选53个涵盖多元社会议题的标签,随后采集476,605条用户历史帖文及7,837条带标签事件数据。在预处理阶段采用人工审核与双重过滤机制,通过标签保留和噪声关键词剔除策略,最终构建包含6,401名用户完整行为档案的高质量语料库,数据划分严格遵循8:1:1的训练-验证-测试比例。
使用方法
研究者可通过分层方式挖掘数据集价值:微观层面利用用户历史帖文训练个性化评论生成模型,中观层面基于事件情感标签开发群体情绪预测算法,宏观层面分析跨主题情感演化规律。具体实施时建议采用论文提出的PAC-LoRA架构,其专家模块设计能有效处理社交媒体的语言特异性。评估指标需兼顾个体评论质量(语言风格匹配度、内容聚焦性)与群体情感分布对齐度(JS散度),同时推荐结合Qwen-Max自动评估与人工标注的双重验证机制。
背景与挑战
背景概述
SentiWeibo数据集由Mohamed bin Zayed人工智能大学和山东大学的研究团队于2025年构建,旨在解决社交媒体中公众情绪预测的双层次问题。该数据集基于微博平台的真实社交互动,包含476,605条用户帖子和7,837个标签事件,覆盖53个话题和6,401名用户。其核心研究问题在于如何同时实现微观层面的个性化评论生成和宏观层面的群体情绪分布预测,为危机管理、政策制定等领域提供了重要工具。SentiWeibo通过整合用户历史行为和群体情绪趋势,填补了现有资源在个性化和公众情绪对齐方面的空白,对计算社会科学和情感分析领域具有显著影响力。
当前挑战
SentiWeibo面临的挑战主要体现在两个方面:在领域问题层面,传统方法难以同时兼顾微观个性化与宏观情绪分布,导致生成的评论缺乏用户特异性且无法反映真实社会情绪趋势;在构建过程层面,数据噪声过滤和用户历史行为信息的有效提取成为主要难点,尤其是社交媒体中存在的无关内容(如抽奖转发)和低信息密度帖子影响了数据质量。此外,如何准确捕捉用户语言风格、情感倾向等多维特征,并将其建模为可计算的个性化参数,也是该数据集构建过程中的关键挑战。
常用场景
经典使用场景
SentiWeibo数据集在社交媒体情感分析和公共响应预测领域具有重要价值。该数据集通过整合微博平台上的真实用户互动数据,包括476,605条用户帖子和7,837个标签事件,为研究者提供了丰富的微观和宏观层面的情感分析素材。其经典使用场景包括个性化评论生成和群体情感分布预测,特别适用于研究突发新闻或重大事件下的公众情绪动态。
解决学术问题
SentiWeibo数据集有效解决了社交媒体分析中的两个关键学术问题:一是传统方法缺乏微观层面的个性化分析,无法捕捉用户个体偏好;二是现有研究忽视宏观层面的情感分布,难以分析更广泛的社会趋势。通过提供包含用户历史帖子和情感标签的大规模数据,该数据集支持开发能够同时处理个性化响应生成和群体情感预测的统一框架,推动了计算社会科学领域的发展。
实际应用
在实际应用方面,SentiWeibo数据集为危机管理、政策制定和社交媒体监控提供了有力工具。政府部门可以利用该数据集预测公众对特定政策的反应,企业可以监测品牌相关的公众情绪,而新闻机构则能更好地理解读者对热点事件的看法。特别是在公共卫生事件或社会热点话题中,该数据集支持的情感分析模型能够帮助相关方及时调整沟通策略。
数据集最近研究
最新研究方向
在社交媒体情感分析领域,SentiWeibo数据集的最新研究方向聚焦于双层级公众响应预测框架的构建与优化。该框架通过整合微观层面的个性化评论生成与宏观层面的群体情感分布建模,突破了传统方法仅关注单一层级的局限。当前研究热点体现在基于大语言模型的社会情境对齐技术,特别是采用PAC-LoRA架构实现用户画像驱动的专家模块动态选择机制。这种创新方法不仅显著提升了情感预测的准确性,更通过7,837个微博话题事件下的476,605条用户交互数据,为计算社会科学提供了兼具个体差异性与群体趋势性的分析范式。其核心价值在于为公共危机管理、政策制定等场景提供了同时捕捉个人表达特征与社会共识演变的量化工具。
相关研究论文
  • 1
    From Individuals to Crowds: Dual-Level Public Response Prediction in Social Media Mohamed bin Zayed University of Artificial Intelligence · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作