中国社会事件数据库(CSED)|社会事件数据集|舆情分析数据集
收藏中国社会事件数据库(CSED)概述
数据集简介
中国社会事件数据库(CSED)是一个基于时间线的事件汇总和分析工具,旨在记录每日社会动态与网络舆情。该数据库的开发源于对中国每日发生的事件以及民众在互联网上关注和接收的信息的探索。
数据集特点
- 每日自动汇总信息:以时间线的形式展示每日社会事件。
- 政府回应检测:部分条目包含政府回应(该功能仅在代码中实现,前端未显示)。
- 微博原帖跳转:点击帖子标题可跳转至微博原帖。
- 多端支持:对移动端和桌面端均有良好支持。
未来计划
- 数据下载与API接口:计划提供数据下载页面或API接口。
- 功能扩展:增加事件分类、事件地图等功能。
- 数据源扩展:增加更多数据源,如公众号、抖音等。
- 开源计划:未来可能开源项目代码。
快速开始指南
准备工作
- 微博爬虫软件:配置并爬取所需数据。
- Node.js和npm:在本地安装。
- MongoDB:在本地安装。
- Open AI API密钥:获取并配置。
部署步骤
-
克隆项目: bash git clone https://github.com/zheqiaochen/China-Social-Event-Database-CSED.git cd China-Social-Event-Database-CSED pip install -r requirements.txt npm run install
-
配置环境变量:在根目录新建
.env
文件,输入MongoDB连接地址和Open AI API密钥。 -
启动后端服务器: bash python "backend/main.py"
-
运行数据处理指令: bash curl -X POST http://0.0.0.0:8888/api/process/summary curl -X POST http://0.0.0.0:8888/api/process/embedding curl -X POST http://0.0.0.0:8888/api/cluster/hdbscan curl -X POST http://0.0.0.0:8888/api/cluster/titles
-
启动前端: bash npm run dev
-
自动化运行:可通过cronjob每天自动运行。
联系方式
项目开发者目前正在上学,时间有限,欢迎有兴趣的开发者通过邮件联系。邮箱地址可在About页面找到。

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Global Burden of Disease Study (GBD)
全球疾病负担研究(GBD)数据集提供了全球范围内疾病、伤害和风险因素的详细统计数据。该数据集包括了各种健康指标,如死亡率、发病率、伤残调整生命年(DALYs)等,涵盖了多个国家和地区。数据集还提供了不同年龄组、性别和时间段的详细分析。
ghdx.healthdata.org 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录