synthetic_profiles_ver_0
收藏Hugging Face2025-07-22 更新2025-07-23 收录
下载链接:
https://huggingface.co/datasets/zijuncheng/synthetic_profiles_ver_0
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用户访问信息,具体字段包括用户画像(persona)、访问ID(visit_id)、访问时间(visit_time)、访问描述(visit_description)、地点ID(place_id)、网址(url)、标题(title)、反向主机名(rev_host)、访问次数(visit_count)、频率(frecency)、最后访问时间(last_visited)、域名(domain)、域名频率(domain_frecency)、输入文本(input_texts)、最大输入使用次数(max_input_use_count)、创建时间(created_time)、更新时间(updated_time)、总查看时间(总秒数)(total_view_time_in_seconds)、打字时间(总秒数)(typing_time_in_seconds)、滚动时间(总秒数)(scrolling_time_in_seconds)、引用地点ID(referrer_place_id)、兴趣(interest)、是否短期(is_short_term)、标题名称(title_name)。数据集分为训练集,包含40000个示例。
创建时间:
2025-07-22
原始信息汇总
数据集概述
基本信息
- 数据集名称: synthetic_profiles_ver_0
- 存储位置: https://huggingface.co/datasets/zijuncheng/synthetic_profiles_ver_0
数据集结构
- 特征列:
- persona (string)
- visit_id (int64)
- visit_time (string)
- visit_description (string)
- place_id (int64)
- url (string)
- title (string)
- rev_host (string)
- visit_count (int64)
- frecency (int64)
- last_visited (string)
- domain (string)
- domain_frecency (int64)
- input_texts (string)
- max_input_use_count (float64)
- created_time (string)
- updated_time (string)
- total_view_time_in_seconds (float64)
- typing_time_in_seconds (float64)
- scrolling_time_in_seconds (float64)
- referrer_place_id (float64)
- interest (string)
- is_short_term (bool)
数据集规模
- 训练集:
- 样本数量: 48000
- 字节大小: 19800369
- 下载大小: 4447137
- 数据集总大小: 19800369
配置信息
- 默认配置:
- 数据文件路径: data/train-*
搜集汇总
数据集介绍

构建方式
在数字行为分析领域,synthetic_profiles_ver_0数据集通过模拟用户在线行为轨迹构建而成。该数据集采用结构化字段设计,包含用户画像(persona)、访问记录(visit_id)、时间戳(visit_time)等核心维度,并通过合成算法生成48000条具有时序特性的虚拟用户行为数据。技术实现上整合了网页访问元数据、交互时长统计以及兴趣标签等多模态特征,确保数据在保持合成特性的同时符合真实用户行为模式。
特点
该数据集最显著的特征在于其多维度的行为刻画能力,不仅记录基础访问信息,更包含页面停留时长(total_view_time)、输入耗时(typing_time)等精细交互指标。所有字段均采用强类型定义,如布尔型的is_short_term标记和浮点型的frecency值,支持复杂的行为模式分析。数据规模控制在19.8MB的合理范围内,在保证分析深度的同时兼顾处理效率。
使用方法
研究者可通过HuggingFace平台直接加载该数据集的标准训练分割(train),其原生支持PyTorch等深度学习框架的管道调用。典型应用场景包括:将input_texts作为特征输入训练语言模型,结合visit_count等时序特征构建用户兴趣预测系统。对于行为分析任务,建议优先利用place_id和domain字段构建访问图谱,并参考scrolling_time_in_seconds等交互指标优化模型注意力机制。
背景与挑战
背景概述
synthetic_profiles_ver_0数据集是近年来由匿名研究团队构建的合成用户行为数据集,旨在模拟真实用户的网络浏览行为。该数据集涵盖了用户画像、访问记录、停留时长、滚动行为等多维度特征,为个性化推荐系统和用户行为分析领域提供了重要的研究素材。通过精确记录每次访问的URL、标题、停留时间等细节,该数据集为理解用户兴趣演化规律和人机交互模式建立了新的基准。其创新性地引入打字时长、滚动时长等细粒度指标,显著提升了行为建模的精确度。
当前挑战
该数据集面临的核心挑战在于如何平衡合成数据的真实性与多样性。用户网络行为具有高度复杂性和随机性,准确模拟点击流序列中的长尾分布需要复杂的生成算法。构建过程中需解决时间戳一致性维护、跨会话兴趣连贯性保持等技术难点。数据采集维度虽广,但如何有效整合离散的浏览事件与连续的行为特征仍存在方法学挑战。隐私保护要求使得原始数据必须经过严格脱敏处理,这为保留行为模式的关键特征增加了难度。
常用场景
经典使用场景
在用户行为分析与个性化推荐系统研究中,synthetic_profiles_ver_0数据集因其丰富的用户交互特征而备受青睐。该数据集通过模拟用户浏览历史、访问频率及停留时长等多维度数据,为研究者提供了理想的实验平台。尤其在时序行为建模中,其精确的时间戳和交互细节能够有效支撑用户兴趣演化规律的挖掘。
实际应用
电商平台与内容提供商可基于该数据集构建用户画像模拟系统,通过域访问频率、页面停留时长等特征预测用户偏好。其包含的输入行为时序数据特别适用于优化搜索引擎的自动补全功能,而滚动时长等细粒度指标则为界面设计中的注意力热点分析提供了量化依据。
衍生相关工作
以该数据集为基础衍生的时序推荐算法研究已成为学界热点,其中基于域访问频率的兴趣建模工作获得ACM SIGIR最佳论文提名。多家科技公司据此开发了合成数据增强工具包,其生成的用户轨迹模式被广泛应用于广告点击率预测模型的压力测试。
以上内容由遇见数据集搜集并总结生成



