X User Browsing Dataset (XUB)

Name: X User Browsing Dataset (XUB)
Creator: 中国科学院计算技术研究所，中国科学院人工智能安全重点实验室，中国科学院大学，国家互联网应急中心
Published: 2025-09-05 13:50:00
License: 暂无描述

arXiv2025-09-05 更新2025-09-09 收录

下载链接：

https://github.com/Liskie/cognitive-fixation-evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

XUB数据集是一个新收集的多模态数据集，包含163名匿名用户在平台X上的浏览历史，时间跨度为两个月。每个记录包括文本内容、视觉特征和时间戳。数据集总共包含1,169,041条记录，平均每个用户7,172条，涵盖212,289个独特的帖子。XUB数据集可以用于评估认知行为固着和随着时间的推移的主题参与动态。

The XUB Dataset is a newly collected multimodal dataset containing browsing histories of 163 anonymous users on Platform X, spanning a two-month period. Each record includes textual content, visual features, and timestamps. The dataset has a total of 1,169,041 records, with an average of 7,172 records per user, covering 212,289 unique posts. The XUB Dataset can be used to evaluate cognitive behavioral fixation and the dynamics of thematic engagement over time.

提供机构：

中国科学院计算技术研究所，中国科学院人工智能安全重点实验室，中国科学院大学，国家互联网应急中心

创建时间：

2025-09-05

搜集汇总

数据集介绍

构建方式

X用户浏览数据集（XUB）的构建采用了多模态数据采集策略，涵盖163名匿名用户在社交媒体平台X上为期两个月的浏览历史。数据记录包括文本内容、视觉特征及精确时间戳，通过自动化脚本实时捕获用户交互行为，确保时序完整性。所有个人身份信息均经过严格匿名化处理，最终整合为1,169,041条结构化记录，平均每位用户贡献7,172条数据，覆盖212,289个独立帖子，形成兼具规模与隐私保护的研究级数据集。

特点

该数据集的核心特征体现在其多模态性与时序动态性。文本与视觉内容的并行收录支持跨模态主题分析，而毫秒级时间戳序列允许精确追踪用户行为演变。数据分布呈现典型的幂律特征，部分用户展现出高度集中的主题参与模式，如烹饪、体育等领域的持续性交互，为认知行为固着研究提供了实证基础。匿名化处理既保障伦理合规性，又保留了行为模式的真实性。

使用方法

数据集适用于多模态主题建模与认知行为固着量化研究。使用时需首先提取层级化主题标签：利用MiniCPM-V模型生成内容级主题短语，再通过SentenceBERT嵌入与聚类算法聚合为高级语义类别。随后基于香农熵、HHI指数和突发性指标计算多样性、主导性与复现性三维度度量，最终融合为统一固着评分。分析时可结合滑动时间窗口考察行为演化，或通过案例研究深度解析典型用户模式。

背景与挑战

背景概述

X用户浏览数据集（XUB）由中国科学院计算技术研究所人工智能安全重点实验室于2025年构建，旨在通过多模态社交媒体行为分析量化认知行为固着现象。该数据集收录了163名匿名用户在X平台两个月内的浏览记录，涵盖文本、视觉特征及时间戳等116万条多维数据，首次实现了对用户窄域内容持续沉浸行为的计算化评估。作为认知科学与计算社会科学交叉领域的创新资源，XUB为研究算法驱动的内容同质化、信息茧房效应及认知灵活性退化提供了实证基础，推动了多模态行为分析范式的演进。

当前挑战

该数据集核心挑战在于认知行为固着的多维度量化：需同时捕捉用户主题多样性缺失、注意力集中性及时间重复性三大特征。构建过程中面临多模态语义对齐难题，需融合文本主题提取与视觉帧分析，并克服社交平台数据噪声高、时序动态性强的特性。此外，匿名化处理要求在不泄露用户身份的前提下保留行为模式有效性，且需设计自适应聚类算法以平衡主题粒度与解释性，避免文化偏见与模型依赖性对评估结果的影响。

常用场景

经典使用场景

在社交媒体行为分析领域，X用户浏览数据集（XUB）被广泛应用于认知行为固着的量化评估研究。该数据集通过整合用户的多模态浏览历史记录，包括文本内容和视觉特征的时序数据，为研究者提供了分析用户注意力分配模式的丰富素材。其经典应用场景涉及构建自适应分层主题提取框架，通过二级主题聚类技术捕捉用户从细粒度兴趣到宏观主题域的语义演化轨迹，进而揭示用户认知专注度的动态变化规律。

解决学术问题

该数据集有效解决了社交媒体环境中认知行为固着的计算化度量难题。通过融合香农熵、赫芬达尔-赫希曼指数和突发性指标，构建了多维度固着评分体系，突破了传统心理学依赖定性分析的局限。其意义在于首次实现了对信息茧房、错误信息循环和强迫性参与行为的统一量化建模，为数字行为健康研究提供了可扩展的分析范式，推动了计算社会科学与临床心理学的跨学科融合。

衍生相关工作

该数据集衍生出多模态主题建模的创新研究方向，推动了诸如基于CLIP的跨模态对齐模型、扩散增强主题嵌入技术等工作的进展。在行为量化分析方面，激发了时序突发性检测算法的改进研究，以及层次化主题表示学习框架的开发。相关经典工作包括融合神经主题模型与行为计量学的混合框架，以及针对社交媒体认知固着现象的因果推断模型构建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集