five

reddit-popular|社交媒体分析数据集|数据抓取数据集

收藏
huggingface2024-11-16 更新2024-12-12 收录
社交媒体分析
数据抓取
下载链接:
https://huggingface.co/datasets/numbers1234567/reddit-popular
下载链接
链接失效反馈
资源简介:
这是一个包含10000个Reddit上/r/popular子版块帖子的数据集。数据集包括帖子的时间戳、URL、标题以及前三个最高评分的评论和它们的评分。此外,数据集还包括与帖子相关的媒体文件路径。数据收集从2024年7月27日开始,到2024年8月24日结束,每两小时抓取200个帖子。数据集的文件包括main.csv和media.csv,分别包含帖子的元数据和媒体文件的标识符。
创建时间:
2024-11-15
原始信息汇总

Reddit Popular Dataset

概述

  • 任务类别: 特征提取、文本生成
  • 语言: 英语
  • 数据量: 10,000到100,000条

数据集详情

  • 数据来源: Reddit的/r/popular子版块
  • 时间范围: 从2024年7月27日9:23:51 PM GMT到2024年8月24日9:48:19 PM GMT
  • 附加数据获取时间: 2024年11月15日5:00:00 AM GMT

媒体目录

  • 内容: 包含所有数据集中PNG格式的媒体文件

ID文件

  • 文件: main.csv, media.csv

main.csv字段

  • post_id: 整数,每个帖子的唯一标识符
  • create_utc: 整数,帖子创建时间的Unix时间戳
  • post_url: 字符串,帖子的URL
  • title: 字符串,帖子的标题
  • comment[1-3]: 字符串或NaN,前三个高评分评论的文本
  • comment[1-3]_score: 整数或NaN,前三个高评分评论的评分

media.csv字段

  • post_id: 整数,标识媒体文件关联的帖子,引用main.csv中的post_id
  • media_path: 字符串,媒体文件的路径,相对于media.csv的目录

数据收集

  • 频率: 每2小时
  • 数量: 每次从/r/popular子版块抓取200个帖子
  • 时间范围: 从2024年7月27日到2024年8月24日
  • 脚本: collect_all_reddit.py

使用指南

  • 数据加载: 使用pandas和PIL库加载main.csv和media.csv
  • 数据合并: 使用pandas的merge函数将main.csv和media.csv合并
  • 图像加载: 使用PIL库加载并显示图像
AI搜集汇总
数据集介绍
main_image_url
构建方式
Reddit Popular数据集通过Reddit API从/r/popular子论坛中收集了10000条帖子数据。数据收集过程从2024年7月27日开始,持续至2024年8月24日,每两小时抓取200条帖子,并将其URL保存至数据库。随后,在2024年11月15日,通过脚本`collect_all_reddit.py`整合了帖子的元数据、文本内容以及相关媒体文件,最终生成了该数据集。数据集包含两个主要文件:`main.csv`和`media.csv`,分别存储帖子信息和媒体文件路径。
特点
Reddit Popular数据集涵盖了/r/popular子论坛中近一个月的热门帖子,包含丰富的元数据和文本内容。`main.csv`文件记录了每条帖子的唯一标识符、创建时间、URL、标题以及三条最高评分评论的文本和得分。`media.csv`文件则关联了帖子与其对应的媒体文件路径,媒体文件仅包含PNG格式的图像。数据集的结构设计便于用户进行文本与图像的联合分析,为多模态研究提供了便利。
使用方法
使用Reddit Popular数据集时,可通过pandas库加载`main.csv`和`media.csv`文件,并结合PIL库处理图像数据。通过SQL-Like的合并操作,可以将帖子文本与关联的图像数据整合为一个新的数据框,便于多模态分析。对于每一行数据,用户可通过`media_path`字段加载并显示图像。若帖子无关联图像,`media_path`字段值为NaN。这种灵活的数据结构支持用户根据研究需求进行定制化分析。
背景与挑战
背景概述
Reddit Popular数据集于2024年由研究人员通过Reddit API构建,旨在捕捉Reddit平台上/r/popular子论坛的热门帖子。该数据集涵盖了从2024年7月27日至2024年8月24日期间发布的近10000条帖子,并进一步收集了相关评论、评分及媒体数据。数据集的核心研究问题在于如何通过文本和多媒体内容分析社交媒体上的热门话题及其传播模式。该数据集为自然语言处理、社交媒体分析及多模态学习等领域提供了宝贵的研究资源,推动了相关领域的技术进步。
当前挑战
Reddit Popular数据集在构建过程中面临多重挑战。首先,Reddit API对单个子论坛的帖子获取数量进行了限制,每次仅能获取1000条帖子,这要求研究人员通过多次请求和复杂的脚本处理来收集完整数据。其次,数据集的多模态特性要求文本与媒体数据的精确匹配,增加了数据清洗和整合的难度。此外,社交媒体数据的动态性和时效性使得数据集的更新和维护成为持续挑战。在应用层面,如何有效结合文本和图像信息进行多模态分析,仍是该数据集在相关领域应用中的核心难题。
常用场景
经典使用场景
Reddit Popular数据集广泛应用于社交媒体分析和自然语言处理领域。研究者通过该数据集分析Reddit平台上热门帖子的文本内容、评论互动以及媒体信息,进而探讨用户行为模式、话题流行趋势以及信息传播机制。该数据集为理解社交媒体动态提供了丰富的实证基础。
实际应用
在实际应用中,Reddit Popular数据集被广泛用于社交媒体监控、舆情分析和内容推荐系统。企业和研究机构利用该数据集分析用户兴趣和话题热度,优化内容策略和广告投放。此外,该数据集还为开发基于用户行为的个性化推荐算法提供了数据基础。
衍生相关工作
基于Reddit Popular数据集,研究者开展了多项经典工作。例如,利用该数据集进行社交媒体情感分析、话题建模以及信息传播网络构建的研究。这些工作不仅深化了对社交媒体用户行为的理解,还为开发更高效的文本处理和推荐算法提供了理论支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录