XChinaCity4 Dataset

github2025-12-11 更新2025-12-12 收录

下载链接：

https://github.com/KinokoY/XChinaCity4-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

XChinaCity4是一个专为社交媒体流行度预测（SMPP）设计的全面多模态基准数据集。与现有依赖静态、孤立帖子的数据集（如SMPD、TPIC）不同，XChinaCity4专注于具有丰富流媒体和帖子间关系的当代社交媒体内容。数据集包含从北京、上海、杭州和深圳四个中国主要城市的官方X（前身为Twitter）账户收集的10,872个帖子，涵盖2023年1月1日至2025年6月1日期间的文本、图像、视频和元数据，为研究内容推荐、信息传播和城市品牌提供了坚实的基础。

XChinaCity4 is a comprehensive multimodal benchmark dataset specifically designed for social media popularity prediction (SMPP). Unlike existing datasets that rely on static, isolated posts such as SMPD and TPIC, XChinaCity4 focuses on contemporary social media content with rich streaming and inter-post relationships. The dataset includes 10,872 posts collected from official X (formerly Twitter) accounts of four major Chinese cities: Beijing, Shanghai, Hangzhou, and Shenzhen, covering text, images, videos and metadata spanning from January 1, 2023 to June 1, 2025, providing a solid foundation for research on content recommendation, information dissemination and city branding.

创建时间：

2025-12-04

原始信息汇总

XChinaCity4 数据集概述

数据集基本信息

数据集名称：XChinaCity4 Dataset
核心用途：专为社交媒体流行度预测 (SMPP) 任务定制的综合多模态基准数据集。
数据特点：聚焦于包含丰富流媒体信息和帖子间潜在关联的现代社交媒体内容，区别于依赖静态、孤立帖子的现有数据集（如 SMPD, TPIC）。
数据规模：包含 10,872 条推文。
数据来源：采集自北京、上海、杭州、深圳四个中国主要城市的官方 X（原 Twitter）账号。
时间跨度：2023年1月1日至2025年6月1日。
数据模态：涵盖文本、图像、视频及元数据。

数据来源详情

数据通过 X 平台的高级搜索功能采集自以下官方认证账号：

@VisitBeijingcn (北京)
@Meetinshanghai (上海)
@Hangzhoufeel (杭州)
@szdaily1 (深圳)

数据获取与状态

当前状态：本仓库目前仅托管示例数据 (Sample Data) 以供预览。
完整数据：完整数据集（包含所有清洗后的 JSON 元数据及完整的媒体文件归档）将在相关研究论文被正式录用后公开。
示例数据下载：
- 百度网盘：https://pan.baidu.com/s/1HxvKhHkv7H38Wf8gMVSWFg (提取码: 0721)
- Google Drive：暂未上传。
文件结构说明：云存储中的文件夹结构与 media_data.json 中的 post ID 一一对应。

数据构建与处理

原始数据量：15,847 条推文。
预处理步骤：
1. 隐私与噪声去除：移除了文本中的 URL 和第三方用户提及（Mentions）。
2. 质量过滤：过滤掉了回复贴、转推贴，以及单词数少于10个且不包含任何媒体附件的帖子。
3. 标准化：移除了 Emoji 表情符号以减少编码不一致的影响。
数据留存率：最终数据集保留了约 71% 的原始数据。
流行度定义：帖子的流行度定义为发布两周后积累的互动指标（浏览量、点赞数、转推数、评论数）的聚合。原始指标经过对数转换，映射到 1-15 的离散区间内。

描述性统计

XChinaCity4 数据集统计摘要如下：

字段	VisitBeijingcn	Meetinshanghai	Hangzhoufeel	Szdaily1
帖子数量	1,445	2,882	4,424	2,121
图片数量	3,400	6,618	10,072	3,622
视频数量	365	684	904	439
平均推文长度 (单词)	35.6	44.1	47.2	80.9
平均推文长度 (Tokens)	56.7	84.5	79.8	124.3
平均浏览量	49,867.1	6,104.9	15,963.8	619.9
平均点赞数	247.8	25.7	100.7	7.4
平均回复数	3.3	0.2	1.1	0.4
平均转发数	16.5	1.8	9.9	1.2

许可与引用

许可证：CC BY-NC 4.0
引用格式： bibtex @article{SmpGraphRAG_2025, title={SmpGraphRAG: Improving Knowledge Graph Retrieval-Augmented Generation for Multimodal Social Media Popularity Prediction}, author={Wang, Zitong and Peng, Yan and Liu, Chun and Wang, Jie}, journal={Under Review}, year={2025}, note={Dataset available at: https://github.com/KinokoY/XChinaCity4-Dataset} }

搜集汇总

数据集介绍

构建方式

在社交媒体流行度预测研究领域，构建高质量基准数据集是推动算法创新的关键前提。XChinaCity4数据集的构建始于从北京、上海、杭州、深圳四个中国主要城市的官方X平台账号中，系统性地采集了2023年初至2025年中的原始推文。为确保数据质量与研究适用性，构建过程实施了一套严谨的预处理流程：首先移除了包含个人隐私的URL与用户提及信息，继而过滤了回复帖、转推帖以及内容过短且缺乏多媒体附件的低质量帖子，并对文本进行了去除表情符号的标准化处理。经过上述清洗，最终从初始收集的15,847条推文中保留了10,872条高质量样本，留存率约为71%。

特点

该数据集的核心特点在于其面向现代社交媒体生态的多模态与城市背景特异性。与以往依赖静态帖子的数据集不同，XChinaCity4囊括了文本、图像、视频及其关联元数据，真实反映了流媒体内容的丰富性。数据来源于四个具有代表性的中国城市官方账号，使得数据集天然蕴含了地域文化、城市形象与政策宣传等多维度语义信息。此外，数据集中每条帖子均附有经过对数转换与离散化处理的流行度标签，其数值范围在1至15之间，这有效缓解了互动指标的长尾分布问题，为模型训练提供了稳定且可解释的监督信号。描述性统计进一步揭示了不同城市账号在内容产量、媒体形式与用户参与度上的显著差异，为细粒度分析提供了可能。

使用方法

对于致力于社交媒体分析与多模态机器学习的研究者而言，XChinaCity4数据集可作为评估流行度预测模型性能的基准。使用者可通过项目提供的GitHub仓库访问数据集的元信息与示例，完整的多媒体文件则需从指定的云存储平台下载，其目录结构与数据标识符相对应。在具体应用中，研究者可综合利用文本特征、视觉特征以及帖子元数据，构建端到端的预测模型。数据集中清晰定义的流行度标签可直接用于回归或分类任务的监督学习。鉴于数据具有明确的城市来源划分，该数据集也特别适用于探究地域因素对内容传播的影响，或开发个性化的城市形象分析模型。相关研究成果建议引用项目团队提供的文献以支持学术共同体。

背景与挑战

背景概述

社交媒体流行度预测作为计算社会科学与信息检索交叉领域的前沿课题，其发展高度依赖于高质量、多模态基准数据集的构建。XChinaCity4数据集由研究人员王梓彤、彭岩等人在2025年创建，旨在为这一领域提供一个聚焦于中国城市官方社交媒体内容的综合性基准。该数据集采集自北京、上海、杭州和深圳四个城市的官方X平台账号，时间跨度覆盖2023年至2025年，共包含超过一万条融合文本、图像与视频的多模态帖子。其核心研究问题在于探索如何整合多模态信息与帖子间的潜在关联，以更精准地预测社交媒体内容的传播影响力，从而推动内容推荐算法、城市品牌数字化传播策略等相关研究的深入发展。

当前挑战

在社交媒体流行度预测领域，核心挑战在于如何有效建模多模态特征间的复杂交互，并量化动态社交网络中的内容传播机制。XChinaCity4数据集所针对的挑战，具体体现在模型需同时解析文本语义、视觉元素及视频内容的协同效应，并克服因平台算法、用户群体差异及文化背景所引入的预测偏差。在数据构建层面，挑战主要源于原始数据的清洗与标准化过程，包括移除用户提及与URL以保护隐私、过滤低质量帖子确保数据有效性，以及处理表情符号编码不一致等问题。此外，将原始的互动指标聚合并映射到离散的流行度标度，以缓解数据的长尾分布，也是构建过程中面临的关键技术难题。

常用场景

经典使用场景

在社交媒体流行度预测研究领域，XChinaCity4数据集为探索多模态内容与用户互动间的复杂关联提供了经典范例。该数据集整合了文本、图像、视频及元数据，并定义了基于多维互动指标的离散化流行度标签，使得研究者能够系统性地构建和评估预测模型。其聚焦于中国四大城市官方账号的推文流，为分析地域文化、媒体类型与传播效果之间的相互作用创造了理想条件，成为验证多模态融合算法与序列建模技术的标准测试平台。

衍生相关工作

围绕XChinaCity4数据集，已衍生出若干探索多模态表示学习与图神经网络结合的经典研究工作。例如，与其关联的SmpGraphRAG框架尝试利用知识图谱检索增强生成技术，以融合帖子间的隐含语义关联与外部常识，提升流行度预测的准确性。此外，该数据集也激励了针对城市差异的对比分析研究，以及将视觉-语言预训练模型适配于社交媒体细粒度理解任务的相关创新，持续拓展着多模态社交计算的研究边界。

数据集最近研究