five

pr0gramm-usercomments

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/VIEWVIEWVIEW/pr0gramm-usercomments
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从pr0gramm平台导出的项目元数据和用户评论的SQLite数据库。主要数据文件为`pr0gramm.sqlite3`,包含两个表:`comments`(评论)和`items`(项目)。评论表包含评论ID、所属项目ID、父评论ID、评论时间、评分、投票数、用户名、用户ID、用户资料URL、评论内容及原始JSON数据等字段。项目表包含项目ID、推广状态、标志、创建时间、用户名、来源feed及原始JSON数据等字段。数据集覆盖至项目ID 6986879(创建于2026-04-17),时间戳以Unix秒格式存储。适用于分析社交媒体用户行为、评论内容挖掘等任务,主要语言为德语和英语。

This dataset contains a SQLite database of item metadata and user comments exported from the pr0gramm platform. The primary data file is `pr0gramm.sqlite3`, which includes two tables: `comments` and `items`. The `comments` table contains fields such as comment ID, associated item ID, parent comment ID, comment timestamp, rating, vote count, username, user ID, user profile URL, comment content, and raw JSON data. The `items` table contains fields such as item ID, promotion status, flag, creation time, username, source feed, and raw JSON data. The dataset covers up to item ID 6986879 (created on 2026-04-17), with timestamps stored in Unix second format. It is applicable to tasks such as social media user behavior analysis and comment content mining, and the main languages are German and English.
创建时间:
2026-05-07
原始信息汇总

数据集:pr0gramm 用户评论

  • 数据集名称:pr0gramm user comments
  • 许可证:其他(other)
  • 语言:德语(de)、英语(en)
  • 任务类别:其他(other)

数据集描述

该数据集包含来自 pr0gramm 平台的条目元数据和评论的 SQLite 导出文件。

覆盖范围

当前快照已完整爬取至条目 ID 6986879

  • 最高 items.item_id6986879(创建时间:2026-04-17 19:17:36 UTC
  • 最高 comments.item_id6986879

数据文件

主文件:pr0gramm.sqlite3

数据库表结构

comments

列名 类型 说明
comment_id INTEGER PRIMARY KEY 评论唯一标识
item_id INTEGER NOT NULL 关联条目ID
parent_comment_id INTEGER 父评论ID
comment_time INTEGER 评论时间(Unix秒)
score INTEGER 评分
upvotes INTEGER 赞数
downvotes INTEGER 踩数
user_name TEXT 用户名
user_id INTEGER 用户ID
user_profile_url TEXT 用户个人资料URL
body TEXT 评论内容
raw_json TEXT NOT NULL API原始JSON快照

items

列名 类型 说明
item_id INTEGER PRIMARY KEY 条目唯一标识
promoted INTEGER 是否推广
flags INTEGER 标志位
created_at INTEGER 创建时间(Unix秒)
user_name TEXT 用户名
source_feed TEXT NOT NULL 来源信息流
raw_json TEXT NOT NULL API原始JSON快照

数据示例

comments 表示例

  • comment_id:83842203
  • item_id:480055
  • parent_comment_id:0
  • comment_time:1776609541
  • score:1
  • upvotes:1
  • downvotes:0
  • user_name:"1111111101"
  • user_id:NULL
  • user_profile_url:"https://pr0gramm.com/user/1111111101"
  • body:"Damals war OC noch gut"
  • raw_json (截断):{"id":83842203,"parent":0,"content":"Damals war OC noch gut","created":1776609541,"up":1,"down":0,"confidence":0.206543,"name":"1111111101","mark":10}

items 表示例

  • item_id:6986879
  • promoted:0
  • flags:1
  • created_at:1776453456
  • user_name:"Ometen"
  • source_feed:"new"
  • raw_json (截断):{"id":6986879,"promoted":0,"userId":132720,"up":1,"down":0,"created":1776453456,"image":"2026/04/17/8804ec2d7b3e5297-h264-ultra_hd.mp4","thumb":"2026/04/17/8804ec2d7b3e5297.jpg",...}

注意事项

  • 时间戳以 Unix 秒为单位存储。
  • raw_json 列包含 API 载荷快照,可能包含未单独规范化到其他列的字段。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自德国知名图像分享社区pr0gramm,以SQLite数据库文件形式完整收录了平台自创立以来的用户评论及上传项目元数据。构建过程采用全量爬取策略,截至目前已完整捕获至编号为6986879的条目,确保了数据的时间连续性与空间完整性。数据库由`comments`与`items`两张主表构成,前者记录评论内容、评分、用户信息及层级关系,后者则存储上传项目的状态标签、来源渠道与创建时间。每条记录均附带原始API响应快照,便于研究者还原数据原始语境。
特点
数据集最显著的特征在于其结构化与原始性并存的设计理念。`comments`表通过`parent_comment_id`字段清晰构建了对话树状结构,支持细粒度的回复关系分析;`items`表的`flags`与`promoted`字段则揭示了项目在平台上的分发与审核状态。时间戳均以Unix秒格式存储,便于进行时序分析。此外,`raw_json`字段保留了完整的API负载,为未来探索未标准化字段提供了可能性。这种双层次数据架构兼顾了即席查询的便捷性与深度挖掘的灵活性。
使用方法
该数据集适用于多种研究场景,可直接使用标准SQLite客户端加载`pr0gramm.sqlite3`文件进行查询。研究者可通过`items`表结合评论数进行内容流行度分析,或利用`comments`表的层级结构与时间戳构建对话演化模型。`body`文本字段支持自然语言处理任务,如情感分析或主题建模。需注意时间戳需转换为可读格式使用,且`raw_json`字段在涉及隐私或敏感信息时需谨慎处理。推荐使用Python的`sqlite3`模块或Pandas的`read_sql_query`函数进行高效的数据提取与转换,以满足不同分析框架的输入要求。
背景与挑战
背景概述
pr0gramm-usercomments数据集由社区研究者于2025年创建,旨在系统化整理德国知名图像分享平台pr0gramm的评论与元数据。该数据集的构建核心围绕用户生成内容中的评论结构、互动模式与内容传播机制展开,为理解德英双语混合环境下的网络社区行为提供了独特的数据基础。通过收录高达6,986,879条项目及其相关评论,该数据集覆盖了平台中大量由用户投票、标识和反馈驱动的动态内容,成为研究社交媒体中情绪演化、舆论形成与社区规范的重要资源。其对社区行为量的全貌采样和结构化存储方式,极大推动了相关领域的可重复研究与跨平台对比分析。
当前挑战
该数据集面临的挑战集中在多语言混合评论的情感解析与语境重建上,由于评论内容以德语为主并掺杂英语,传统自然语言处理工具在情感极性判断与主题分类上常常失真。构建过程中,从平台API获取原始JSON数据后,需要处理大量缺失字段(如user_id可为NULL),并应对Unix时间戳的时区转换与不同数据类型的统一标准化。此外,评论区嵌套结构(如parent_comment_id)的语义关系复杂,导致对话树重建与跨评论交互分析异常困难,还需应对用户匿名性高的环境下隐含的噪声数据与恶意内容干扰,进一步限制了数据集的直接应用效果。
常用场景
经典使用场景
pr0gramm-usercomments数据集汇聚了来自德国流行图像板社区pr0gramm的用户评论与元数据,为理解德英双语网络话语生态提供了独特窗口。其经典使用场景聚焦于社会语言学分析与网络行为研究,学者可利用评论正文、投票得分及时间戳等信息,剖析用户互动模式、情感极化趋势与话语演变规律。数据集中包含的父子评论层级结构,尤其适合重建对话线程,深入探究在线社群内部的争论结构与共识形成过程,从而揭示小众网络平台中知识流动与社群规范的动态机制。
解决学术问题
该数据集有效解决了网络社群研究中多模态数据缺失与时间跨度不足的难题,为追踪用户行为长程演化提供了宝贵的纵向记录。学术研究中,它助力探讨匿名环境下用户评分行为与内容传播的关联,验证社会认同理论在网络空间中的适用性。通过分析上/下投票与环境标记字段,研究者能够量化内容质量感知与群体注意力分配,进而解答关于数字口碑形成、信息生态失衡以及社区治理策略效力等核心理论问题,对充实计算社会科学的理论体系具有重要意义。
衍生相关工作
围绕此数据集,已衍生出若干认知计算与数字人文领域的经典工作。研究者基于评论区上下文关系,训练了用于推断用户隐式兴趣偏好的图神经网络模型,开创了利用结构化投票数据增强推荐鲁棒性的新范式。另有工作将评论时间序列与内容特征融合,构建了预测网络迷因传播轨迹的时序模型,为病毒式内容研究提供了方法论借鉴。此外,pr0gramm社区特有的评分机制也被引入关于虚假信息检测的对比实验中,成为评估算法在非主流平台泛化能力的关键基准数据集之一。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作