Weibo-COV|COVID-19数据集|社交媒体分析数据集
收藏数据集概述
数据集名称
- Weibo-COV 1.0
- Weibo-COV 2.0
数据集描述
-
Weibo-COV 1.0:
- 时间范围: 2019-12-01 00:00 - 2020-04-30 23:59 (GMT+8)
- 关键词: 共179个选定关键词
- 数据量: 从692,792,816条原始推文中筛选出40,893,832条推文。此外,还发布了带有GEO标签的所有原始推文,共计45,901,994条,未经过关键词过滤。
- 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。
-
Weibo-COV 2.0:
- 时间范围: 2019-12-01 00:00 - 2020-12-30 23:59 (GMT+8)
- 关键词: 包含通用关键词和每月不同的关键词,用于过滤当月所有原始推文。
- 数据量: 从2,615,185,101条原始推文中筛选出65,175,112条推文。
- 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。
数据集更新
- 2021-01-18: 发布Weibo-COV 2.0,包含2000万微博活跃用户池。
- 2020-12-30: Weibo-COV已支持超过200个项目。
- 2020-10-06: 关于此数据集的论文已被NLP4COVID@EMNLP2020接受。
- 2020-06-24: 添加
user_id
以识别每个用户,该ID是原始微博user_id
的哈希结果。
数据集下载
- 获取数据集需填写相应的申请表并发送至Yong Hu (nghuyong@163.com) 和 Anfan Chen (caftsinghuaedu@gmail.com)。
引用信息
@inproceedings{hu-etal-2020-weibo, title = "{W}eibo-{COV}: A Large-Scale {COVID}-19 Social Media Dataset from {W}eibo", author = "Hu, Yong and Huang, Heyan and Chen, Anfan and Mao, Xian-Ling", booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020", month = dec, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.nlpcovid19-2.34", doi = "10.18653/v1/2020.nlpcovid19-2.34", }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
熟肉制品在全国需求价格弹性分析数据
为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。
浙江省数据知识产权登记平台 收录