five

中国社会事件数据库(CSED)|社会事件数据集|舆情分析数据集

收藏
github2025-01-20 更新2025-01-24 收录
社会事件
舆情分析
下载链接:
https://github.com/zheqiaochen/China-Social-Event-Database-CSED
下载链接
链接失效反馈
资源简介:
中国社会事件数据库(CSED)是一个基于时间线的事件汇总和分析工具,旨在记录每日社会动态与网络舆情。
创建时间:
2025-01-15
原始信息汇总

中国社会事件数据库(CSED)概述

数据集简介

中国社会事件数据库(CSED)是一个基于时间线的事件汇总和分析工具,旨在记录每日社会动态与网络舆情。该数据库的开发源于对中国每日发生的事件以及民众在互联网上关注和接收的信息的探索。

数据集特点

  1. 每日自动汇总信息:以时间线的形式展示每日社会事件。
  2. 政府回应检测:部分条目包含政府回应(该功能仅在代码中实现,前端未显示)。
  3. 微博原帖跳转:点击帖子标题可跳转至微博原帖。
  4. 多端支持:对移动端和桌面端均有良好支持。

未来计划

  1. 数据下载与API接口:计划提供数据下载页面或API接口。
  2. 功能扩展:增加事件分类、事件地图等功能。
  3. 数据源扩展:增加更多数据源,如公众号、抖音等。
  4. 开源计划:未来可能开源项目代码。

快速开始指南

准备工作

  1. 微博爬虫软件:配置并爬取所需数据。
  2. Node.js和npm:在本地安装。
  3. MongoDB:在本地安装。
  4. Open AI API密钥:获取并配置。

部署步骤

  1. 克隆项目: bash git clone https://github.com/zheqiaochen/China-Social-Event-Database-CSED.git cd China-Social-Event-Database-CSED pip install -r requirements.txt npm run install

  2. 配置环境变量:在根目录新建.env文件,输入MongoDB连接地址和Open AI API密钥。

  3. 启动后端服务器: bash python "backend/main.py"

  4. 运行数据处理指令: bash curl -X POST http://0.0.0.0:8888/api/process/summary curl -X POST http://0.0.0.0:8888/api/process/embedding curl -X POST http://0.0.0.0:8888/api/cluster/hdbscan curl -X POST http://0.0.0.0:8888/api/cluster/titles

  5. 启动前端: bash npm run dev

  6. 自动化运行:可通过cronjob每天自动运行。

联系方式

项目开发者目前正在上学,时间有限,欢迎有兴趣的开发者通过邮件联系。邮箱地址可在About页面找到。

AI搜集汇总
数据集介绍
main_image_url
构建方式
中国社会事件数据库(CSED)的构建基于对每日社会动态与网络舆情的系统性记录与分析。开发者通过微博爬虫软件收集数据,结合本地安装的node.js、npm和mongodb环境,以及Open AI API密钥,实现了数据的自动化汇总与处理。数据经过摘要生成、嵌入表示、聚类分析等步骤,最终以时间线的形式展示,确保信息的全面性与时效性。
使用方法
用户需先配置微博爬虫软件并获取Open AI API密钥,随后克隆项目并安装依赖。通过.env文件配置mongodb连接地址与API密钥后,启动后端服务器并依次运行摘要生成、嵌入表示、聚类分析等命令。前端可通过npm run dev启动,用户可查看时间线形式的事件汇总。cronjob可用于实现每日自动运行,确保数据的持续更新与分析。
背景与挑战
背景概述
中国社会事件数据库(CSED)由浙江大学的研究者开发,旨在记录和分析中国每日的社会动态与网络舆情。该数据库的创建源于对两个核心问题的探索:中国每天发生的事件以及民众在互联网上关注的信息。不同于传统传播学或政治学研究对特定事件的关注,CSED通过时间线的形式汇总事件数据,提供了更全面的信息分布视角。这一工具不仅为研究者提供了丰富的数据资源,也为公众理解社会动态提供了新的途径。
当前挑战
CSED在构建过程中面临多重挑战。首先,数据源的多样性和复杂性要求系统能够高效处理来自不同平台的信息,如微博、公众号等。其次,数据的实时性和准确性是另一个关键问题,尤其是在处理大规模网络舆情时,如何确保数据的及时更新和真实性成为一大难题。此外,技术实现上的挑战也不容忽视,例如如何优化爬虫算法以提高数据采集效率,以及如何通过聚类和摘要技术对海量数据进行有效分析。这些挑战不仅考验了开发者的技术能力,也对数据库的长期维护和扩展提出了更高要求。
常用场景
经典使用场景
中国社会事件数据库(CSED)主要用于记录和分析中国每日的社会动态与网络舆情。通过时间线的形式展示每日事件,研究者可以直观地观察到社会事件的发展脉络和民众的关注点。这一数据集在传播学、政治学和社会学研究中具有重要价值,尤其是在分析特定事件的社会影响和舆论导向时,提供了丰富的数据支持。
解决学术问题
CSED解决了传播学和政治学研究中缺乏整体信息分布数据的问题。传统研究多聚焦于单一事件的报道,而CSED通过汇总每日事件数据,提供了更全面的视角,帮助研究者分析社会事件的整体趋势和民众的舆论反应。这一数据集为理解中国社会动态和网络舆情提供了重要的数据基础,推动了相关领域的学术研究。
实际应用
在实际应用中,CSED为政府、媒体和研究机构提供了实时的事件监测和舆情分析工具。通过该数据库,用户可以快速获取每日社会事件的汇总信息,了解民众的关注点和舆论走向。这对于政策制定、新闻报道和社会研究具有重要的参考价值,尤其是在应对突发事件和舆情危机时,能够提供及时的数据支持。
数据集最近研究
最新研究方向
中国社会事件数据库(CSED)作为社会动态与网络舆情分析的重要工具,近年来在传播学与政治学领域引起了广泛关注。研究者们正致力于通过该数据集探索社会事件的时空分布规律,揭示舆情演变的深层机制。特别是在大数据与人工智能技术的推动下,CSED被广泛应用于事件分类、情感分析以及政府回应效果评估等前沿研究。此外,随着多源数据融合技术的成熟,研究者正尝试将微博、抖音等平台的数据纳入分析框架,以构建更全面的社会事件图谱。这一研究方向不仅为政策制定提供了数据支持,也为公众理解社会动态提供了新的视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录