five

中国社会事件数据库(CSED)|社会事件数据集|舆情分析数据集

收藏
github2025-01-20 更新2025-01-24 收录
社会事件
舆情分析
下载链接:
https://github.com/zheqiaochen/China-Social-Event-Database-CSED
下载链接
链接失效反馈
资源简介:
中国社会事件数据库(CSED)是一个基于时间线的事件汇总和分析工具,旨在记录每日社会动态与网络舆情。
创建时间:
2025-01-15
原始信息汇总

中国社会事件数据库(CSED)概述

数据集简介

中国社会事件数据库(CSED)是一个基于时间线的事件汇总和分析工具,旨在记录每日社会动态与网络舆情。该数据库的开发源于对中国每日发生的事件以及民众在互联网上关注和接收的信息的探索。

数据集特点

  1. 每日自动汇总信息:以时间线的形式展示每日社会事件。
  2. 政府回应检测:部分条目包含政府回应(该功能仅在代码中实现,前端未显示)。
  3. 微博原帖跳转:点击帖子标题可跳转至微博原帖。
  4. 多端支持:对移动端和桌面端均有良好支持。

未来计划

  1. 数据下载与API接口:计划提供数据下载页面或API接口。
  2. 功能扩展:增加事件分类、事件地图等功能。
  3. 数据源扩展:增加更多数据源,如公众号、抖音等。
  4. 开源计划:未来可能开源项目代码。

快速开始指南

准备工作

  1. 微博爬虫软件:配置并爬取所需数据。
  2. Node.js和npm:在本地安装。
  3. MongoDB:在本地安装。
  4. Open AI API密钥:获取并配置。

部署步骤

  1. 克隆项目: bash git clone https://github.com/zheqiaochen/China-Social-Event-Database-CSED.git cd China-Social-Event-Database-CSED pip install -r requirements.txt npm run install

  2. 配置环境变量:在根目录新建.env文件,输入MongoDB连接地址和Open AI API密钥。

  3. 启动后端服务器: bash python "backend/main.py"

  4. 运行数据处理指令: bash curl -X POST http://0.0.0.0:8888/api/process/summary curl -X POST http://0.0.0.0:8888/api/process/embedding curl -X POST http://0.0.0.0:8888/api/cluster/hdbscan curl -X POST http://0.0.0.0:8888/api/cluster/titles

  5. 启动前端: bash npm run dev

  6. 自动化运行:可通过cronjob每天自动运行。

联系方式

项目开发者目前正在上学,时间有限,欢迎有兴趣的开发者通过邮件联系。邮箱地址可在About页面找到。

AI搜集汇总
数据集介绍
main_image_url
构建方式
中国社会事件数据库(CSED)的构建基于对每日社会动态与网络舆情的系统性记录与分析。开发者通过微博爬虫软件收集数据,结合本地安装的node.js、npm和mongodb环境,以及Open AI API密钥,实现了数据的自动化汇总与处理。数据经过摘要生成、嵌入表示、聚类分析等步骤,最终以时间线的形式展示,确保信息的全面性与时效性。
使用方法
用户需先配置微博爬虫软件并获取Open AI API密钥,随后克隆项目并安装依赖。通过.env文件配置mongodb连接地址与API密钥后,启动后端服务器并依次运行摘要生成、嵌入表示、聚类分析等命令。前端可通过npm run dev启动,用户可查看时间线形式的事件汇总。cronjob可用于实现每日自动运行,确保数据的持续更新与分析。
背景与挑战
背景概述
中国社会事件数据库(CSED)由浙江大学的研究者开发,旨在记录和分析中国每日的社会动态与网络舆情。该数据库的创建源于对两个核心问题的探索:中国每天发生的事件以及民众在互联网上关注的信息。不同于传统传播学或政治学研究对特定事件的关注,CSED通过时间线的形式汇总事件数据,提供了更全面的信息分布视角。这一工具不仅为研究者提供了丰富的数据资源,也为公众理解社会动态提供了新的途径。
当前挑战
CSED在构建过程中面临多重挑战。首先,数据源的多样性和复杂性要求系统能够高效处理来自不同平台的信息,如微博、公众号等。其次,数据的实时性和准确性是另一个关键问题,尤其是在处理大规模网络舆情时,如何确保数据的及时更新和真实性成为一大难题。此外,技术实现上的挑战也不容忽视,例如如何优化爬虫算法以提高数据采集效率,以及如何通过聚类和摘要技术对海量数据进行有效分析。这些挑战不仅考验了开发者的技术能力,也对数据库的长期维护和扩展提出了更高要求。
常用场景
经典使用场景
中国社会事件数据库(CSED)主要用于记录和分析中国每日的社会动态与网络舆情。通过时间线的形式展示每日事件,研究者可以直观地观察到社会事件的发展脉络和民众的关注点。这一数据集在传播学、政治学和社会学研究中具有重要价值,尤其是在分析特定事件的社会影响和舆论导向时,提供了丰富的数据支持。
解决学术问题
CSED解决了传播学和政治学研究中缺乏整体信息分布数据的问题。传统研究多聚焦于单一事件的报道,而CSED通过汇总每日事件数据,提供了更全面的视角,帮助研究者分析社会事件的整体趋势和民众的舆论反应。这一数据集为理解中国社会动态和网络舆情提供了重要的数据基础,推动了相关领域的学术研究。
实际应用
在实际应用中,CSED为政府、媒体和研究机构提供了实时的事件监测和舆情分析工具。通过该数据库,用户可以快速获取每日社会事件的汇总信息,了解民众的关注点和舆论走向。这对于政策制定、新闻报道和社会研究具有重要的参考价值,尤其是在应对突发事件和舆情危机时,能够提供及时的数据支持。
数据集最近研究
最新研究方向
中国社会事件数据库(CSED)作为社会动态与网络舆情分析的重要工具,近年来在传播学与政治学领域引起了广泛关注。研究者们正致力于通过该数据集探索社会事件的时空分布规律,揭示舆情演变的深层机制。特别是在大数据与人工智能技术的推动下,CSED被广泛应用于事件分类、情感分析以及政府回应效果评估等前沿研究。此外,随着多源数据融合技术的成熟,研究者正尝试将微博、抖音等平台的数据纳入分析框架,以构建更全面的社会事件图谱。这一研究方向不仅为政策制定提供了数据支持,也为公众理解社会动态提供了新的视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Global Burden of Disease Study (GBD)

全球疾病负担研究(GBD)数据集提供了全球范围内疾病、伤害和风险因素的详细统计数据。该数据集包括了各种健康指标,如死亡率、发病率、伤残调整生命年(DALYs)等,涵盖了多个国家和地区。数据集还提供了不同年龄组、性别和时间段的详细分析。

ghdx.healthdata.org 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录