冬奥多语言多模态资讯半结构化与非结构化数据库
收藏国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edfc81bb16e0300cd4de55&type=1
下载链接
链接失效反馈官方服务:
资源简介:
"数据集内容:在MongoDB数据库中构建多个数据集合(collection),用于存储冬奥资讯数据与相关微博用户数据。所构建数据集合共10个,分别命名为webnew(新闻资讯)、microblog(微博资讯)、Twitter(推特资讯)、weichat(微信资讯)、enewspaper(电子报纸)、APP(移动软件端资讯)、shortvideo(短视频资讯)、facebook(脸书资讯)、audio(喜马拉雅音频资讯)和weibo_user(微博用户信息集)。
采集方案:入库方法分为两种,一是通过中科闻歌公司提供的API接口,基于Python编写代码自动入库;二是编写Python爬虫代码,从互联网上爬取相关资讯数据。该数据集中,除audio数据采用第二种方式入库,其余集合均采用第一种方式入库。
采集地点:桂林电子科技大学
采集时间:2020.10——2022.10
设备情况:计算机操作系统为windows10,显卡NVIDIA Quadro P2200,内存32G。
提供机构:
桂林电子科技大学



