reddit-popular|社交媒体分析数据集|数据抓取数据集
收藏Reddit Popular Dataset
概述
- 任务类别: 特征提取、文本生成
- 语言: 英语
- 数据量: 10,000到100,000条
数据集详情
- 数据来源: Reddit的/r/popular子版块
- 时间范围: 从2024年7月27日9:23:51 PM GMT到2024年8月24日9:48:19 PM GMT
- 附加数据获取时间: 2024年11月15日5:00:00 AM GMT
媒体目录
- 内容: 包含所有数据集中PNG格式的媒体文件
ID文件
- 文件: main.csv, media.csv
main.csv字段
- post_id: 整数,每个帖子的唯一标识符
- create_utc: 整数,帖子创建时间的Unix时间戳
- post_url: 字符串,帖子的URL
- title: 字符串,帖子的标题
- comment[1-3]: 字符串或NaN,前三个高评分评论的文本
- comment[1-3]_score: 整数或NaN,前三个高评分评论的评分
media.csv字段
- post_id: 整数,标识媒体文件关联的帖子,引用main.csv中的post_id
- media_path: 字符串,媒体文件的路径,相对于media.csv的目录
数据收集
- 频率: 每2小时
- 数量: 每次从/r/popular子版块抓取200个帖子
- 时间范围: 从2024年7月27日到2024年8月24日
- 脚本: collect_all_reddit.py
使用指南
- 数据加载: 使用pandas和PIL库加载main.csv和media.csv
- 数据合并: 使用pandas的merge函数将main.csv和media.csv合并
- 图像加载: 使用PIL库加载并显示图像

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录