中国社会事件数据库(CSED)|社会事件数据集|舆情分析数据集
收藏中国社会事件数据库(CSED)概述
数据集简介
中国社会事件数据库(CSED)是一个基于时间线的事件汇总和分析工具,旨在记录每日社会动态与网络舆情。该数据库的开发源于对中国每日发生的事件以及民众在互联网上关注和接收的信息的探索。
数据集特点
- 每日自动汇总信息:以时间线的形式展示每日社会事件。
- 政府回应检测:部分条目包含政府回应(该功能仅在代码中实现,前端未显示)。
- 微博原帖跳转:点击帖子标题可跳转至微博原帖。
- 多端支持:对移动端和桌面端均有良好支持。
未来计划
- 数据下载与API接口:计划提供数据下载页面或API接口。
- 功能扩展:增加事件分类、事件地图等功能。
- 数据源扩展:增加更多数据源,如公众号、抖音等。
- 开源计划:未来可能开源项目代码。
快速开始指南
准备工作
- 微博爬虫软件:配置并爬取所需数据。
- Node.js和npm:在本地安装。
- MongoDB:在本地安装。
- Open AI API密钥:获取并配置。
部署步骤
-
克隆项目: bash git clone https://github.com/zheqiaochen/China-Social-Event-Database-CSED.git cd China-Social-Event-Database-CSED pip install -r requirements.txt npm run install
-
配置环境变量:在根目录新建
.env
文件,输入MongoDB连接地址和Open AI API密钥。 -
启动后端服务器: bash python "backend/main.py"
-
运行数据处理指令: bash curl -X POST http://0.0.0.0:8888/api/process/summary curl -X POST http://0.0.0.0:8888/api/process/embedding curl -X POST http://0.0.0.0:8888/api/cluster/hdbscan curl -X POST http://0.0.0.0:8888/api/cluster/titles
-
启动前端: bash npm run dev
-
自动化运行:可通过cronjob每天自动运行。
联系方式
项目开发者目前正在上学,时间有限,欢迎有兴趣的开发者通过邮件联系。邮箱地址可在About页面找到。

网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录