five

Weiboscope Open Data

收藏
Mendeley Data2024-06-25 更新2024-06-28 收录
下载链接:
https://datahub.hku.hk/articles/dataset/Weiboscope_Open_Data/16674565
下载链接
链接失效反馈
官方服务:
资源简介:
Welcome to the Open Weiboscope Data Access website. Weiboscope is a data collection and visualization project developed by the research team at the Journalism and Media Studies Centre, The University of Hong Kong (JMSC). One of the objectives of the project is to make censored Sina Weibo posts of a selected group of Chinese microbloggers publicly accessible, which enables academic use of the data for better understanding of the social media in China and making the Chinese media system more transparent. Since January 2011, the project has been regularly sampling timelines of more than 350,000 Chinese microbloggers who have more than 1,000 followers. The methodology has been detailed in an IEEE Internet Computing article (Fu, Chan, Chau, 2013). Besides, we have sampled Sina Weibo accounts randomly since 2012 and the samples' most recent timeline were collected and stored into the dataset. Our sampling approach is reported in a PLOS ONE article (Fu, Chau, 2013). This site contains all the Weiboscope data collected in the year 2012. We are delighted to share the data for open access. But for ethical reason, the data are anonymized, i.e. real user and message id are replaced by pseudo ID. When using the data, please cite the paper below. King-wa Fu, CH Chan, Michael Chau. Assessing Censorship on Microblogs in China: Discriminatory Keyword Analysis and Impact Evaluation of the 'Real Name Registration' Policy. IEEE Internet Computing. 2013; 17(3): 42-50. http://doi.ieeecomputersociety.org/10.1109/MIC.2013.28 Data Set Statistics: Number of weibo messages: 226841122 Number of deleted messages: 10865955 Number of censored ('Permission Denied') messages: 86083 Number of unique weibo users: 14387628 Enquiry: Send your question/comment to weiboscope@gmail.com. The project is funded by the University of Hong Kong Seed Funding Program for Basic Research. Citation:Fu KW, Chan CH, Chau M. Assessing Censorship on Microblogs in China: Discriminatory Keyword Analysis and the Real-Name Registration Policy. Internet Computing, IEEE. 2013; 17(3): 42-50.

欢迎访问开放微博观测站(Weiboscope)数据获取官网。微博观测站(Weiboscope)是由香港大学新闻及传媒研究中心(Journalism and Media Studies Centre, JMSC)研发团队打造的数据采集与可视化项目。该项目的核心目标之一,是将选定的一批中国微博用户的被屏蔽新浪微博(Sina Weibo)帖公开发布,以便学界使用该数据,深化对中国社交媒体生态的认知,并推动中国媒体体系的透明度建设。 自2011年1月起,该项目定期对超过35万名粉丝量超1000的中国微博用户的时间线进行采样,其采样方法已发表于《IEEE Internet Computing》期刊的一篇论文中(Fu、Chan、Chau,2013)。此外,自2012年起,项目组还对新浪微博(Sina Weibo)账号进行随机采样,并将采样账号的最新时间线内容采集入库,纳入数据集;该随机采样方法的细节已发表于《PLOS ONE》期刊的一篇论文中(Fu、Chau,2013)。 本网站收录了2012年采集的全部微博观测站(Weiboscope)数据集。我们十分荣幸能够开放该数据集的共享权限,但出于伦理考量,所有数据均已完成匿名化处理:真实用户ID与博文ID均已替换为虚拟ID。使用本数据集时,请引用以下论文: 傅京华(King-wa Fu)、陈仲豪(CH Chan)、周明(Michael Chau). 评估中国微博平台的内容审查:判别式关键词分析与"实名制"政策影响评估. 《IEEE Internet Computing》, 2013, 17(3): 42-50. 链接:http://doi.ieeecomputersociety.org/10.1109/MIC.2013.28 数据集统计信息: 微博博文总量:226,841,122条 已删除博文总量:10,865,955条 被屏蔽(显示"权限不足")博文总量:86,083条 唯一微博用户总量:14,387,628个 咨询与反馈:如有疑问或建议,请发送邮件至weiboscope@gmail.com。 本项目由香港大学基础研究种子基金资助。 引用格式:Fu KW, Chan CH, Chau M. Assessing Censorship on Microblogs in China: Discriminatory Keyword Analysis and the Real-Name Registration Policy. IEEE Internet Computing, 2013; 17(3): 42-50.
创建时间:
2023-06-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Weiboscope Open Data是一个由香港大学新闻及传媒研究中心开发的开放数据集,专注于收集和公开被审查的新浪微博帖子,用于研究中国社交媒体审查和媒体透明度。数据集包含2012年全年数据,覆盖超过35万个高粉丝数微博用户,总计超过2.26亿条消息,其中约1086万条被删除、8.6万条被审查,数据经过匿名化处理以保护隐私。该数据集以周为单位归档,总大小约19.08GB,适用于学术分析,并需遵循CC BY-NC 4.0许可使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作