reddit-popular|社交媒体分析数据集|数据抓取数据集

huggingface2024-11-16 更新2024-12-12 收录

社交媒体分析

数据抓取

下载链接：

https://huggingface.co/datasets/numbers1234567/reddit-popular

下载链接

链接失效反馈

资源简介：

这是一个包含10000个Reddit上/r/popular子版块帖子的数据集。数据集包括帖子的时间戳、URL、标题以及前三个最高评分的评论和它们的评分。此外，数据集还包括与帖子相关的媒体文件路径。数据收集从2024年7月27日开始，到2024年8月24日结束，每两小时抓取200个帖子。数据集的文件包括main.csv和media.csv，分别包含帖子的元数据和媒体文件的标识符。

创建时间：

2024-11-15

原始信息汇总

Reddit Popular Dataset

概述

任务类别: 特征提取、文本生成
语言: 英语
数据量: 10,000到100,000条

数据集详情

数据来源: Reddit的/r/popular子版块
时间范围: 从2024年7月27日9:23:51 PM GMT到2024年8月24日9:48:19 PM GMT
附加数据获取时间: 2024年11月15日5:00:00 AM GMT

媒体目录

内容: 包含所有数据集中PNG格式的媒体文件

ID文件

文件: main.csv, media.csv

main.csv字段

post_id: 整数，每个帖子的唯一标识符
create_utc: 整数，帖子创建时间的Unix时间戳
post_url: 字符串，帖子的URL
title: 字符串，帖子的标题
comment[1-3]: 字符串或NaN，前三个高评分评论的文本
comment[1-3]_score: 整数或NaN，前三个高评分评论的评分

media.csv字段

post_id: 整数，标识媒体文件关联的帖子，引用main.csv中的post_id
media_path: 字符串，媒体文件的路径，相对于media.csv的目录

数据收集

频率: 每2小时
数量: 每次从/r/popular子版块抓取200个帖子
时间范围: 从2024年7月27日到2024年8月24日
脚本: collect_all_reddit.py

使用指南

数据加载: 使用pandas和PIL库加载main.csv和media.csv
数据合并: 使用pandas的merge函数将main.csv和media.csv合并
图像加载: 使用PIL库加载并显示图像

AI搜集汇总

数据集介绍

构建方式

Reddit Popular数据集通过Reddit API从/r/popular子论坛中收集了10000条帖子数据。数据收集过程从2024年7月27日开始，持续至2024年8月24日，每两小时抓取200条帖子，并将其URL保存至数据库。随后，在2024年11月15日，通过脚本`collect_all_reddit.py`整合了帖子的元数据、文本内容以及相关媒体文件，最终生成了该数据集。数据集包含两个主要文件：`main.csv`和`media.csv`，分别存储帖子信息和媒体文件路径。

特点

Reddit Popular数据集涵盖了/r/popular子论坛中近一个月的热门帖子，包含丰富的元数据和文本内容。`main.csv`文件记录了每条帖子的唯一标识符、创建时间、URL、标题以及三条最高评分评论的文本和得分。`media.csv`文件则关联了帖子与其对应的媒体文件路径，媒体文件仅包含PNG格式的图像。数据集的结构设计便于用户进行文本与图像的联合分析，为多模态研究提供了便利。

使用方法

使用Reddit Popular数据集时，可通过pandas库加载`main.csv`和`media.csv`文件，并结合PIL库处理图像数据。通过SQL-Like的合并操作，可以将帖子文本与关联的图像数据整合为一个新的数据框，便于多模态分析。对于每一行数据，用户可通过`media_path`字段加载并显示图像。若帖子无关联图像，`media_path`字段值为NaN。这种灵活的数据结构支持用户根据研究需求进行定制化分析。

背景与挑战

背景概述

Reddit Popular数据集于2024年由研究人员通过Reddit API构建，旨在捕捉Reddit平台上/r/popular子论坛的热门帖子。该数据集涵盖了从2024年7月27日至2024年8月24日期间发布的近10000条帖子，并进一步收集了相关评论、评分及媒体数据。数据集的核心研究问题在于如何通过文本和多媒体内容分析社交媒体上的热门话题及其传播模式。该数据集为自然语言处理、社交媒体分析及多模态学习等领域提供了宝贵的研究资源，推动了相关领域的技术进步。

当前挑战

Reddit Popular数据集在构建过程中面临多重挑战。首先，Reddit API对单个子论坛的帖子获取数量进行了限制，每次仅能获取1000条帖子，这要求研究人员通过多次请求和复杂的脚本处理来收集完整数据。其次，数据集的多模态特性要求文本与媒体数据的精确匹配，增加了数据清洗和整合的难度。此外，社交媒体数据的动态性和时效性使得数据集的更新和维护成为持续挑战。在应用层面，如何有效结合文本和图像信息进行多模态分析，仍是该数据集在相关领域应用中的核心难题。

常用场景

经典使用场景

Reddit Popular数据集广泛应用于社交媒体分析和自然语言处理领域。研究者通过该数据集分析Reddit平台上热门帖子的文本内容、评论互动以及媒体信息，进而探讨用户行为模式、话题流行趋势以及信息传播机制。该数据集为理解社交媒体动态提供了丰富的实证基础。

实际应用

在实际应用中，Reddit Popular数据集被广泛用于社交媒体监控、舆情分析和内容推荐系统。企业和研究机构利用该数据集分析用户兴趣和话题热度，优化内容策略和广告投放。此外，该数据集还为开发基于用户行为的个性化推荐算法提供了数据基础。

衍生相关工作

基于Reddit Popular数据集，研究者开展了多项经典工作。例如，利用该数据集进行社交媒体情感分析、话题建模以及信息传播网络构建的研究。这些工作不仅深化了对社交媒体用户行为的理解，还为开发更高效的文本处理和推荐算法提供了理论支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Human3.6M

多样性和大小 • 360 万张 3D 人体姿势和相应图像 • 11 位专业演员（6 男，5 女） • 17 种场景（讨论、吸烟、拍照、打电话……）准确捕捉和同步 • 高分辨率来自 4 个校准摄像机的 50Hz 视频 • 来自高速运动捕捉系统的准确 3D 关节位置和关节角度 • 每种配置的像素级 24 个身体部位标签 • 飞行时间范围数据。

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据，包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。