daniilak/vk_groups
收藏Hugging Face2023-08-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/daniilak/vk_groups
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了社交网络VKontakte(VK.COM)的所有公共页面(社区或群组)的列表,当前数量为222,130,000个社区。数据集包含25个字段,CSV文件以制表符分隔。此外,还有一个包含41,614个元素的已验证群组列表。数据集是通过VK API方法抓取的。数据集的使用许可为公共许可,允许在科学研究、设计工作等中使用,唯一条件是发布指向该数据集的链接。
This dataset contains the full list of all public pages (communities or groups) from the social network VKontakte (VK.COM), with the current number of communities being 222,130,000. The dataset includes 25 fields, and the CSV file uses tab-separated formatting. Additionally, there is a verified group list consisting of 41,614 entries. This dataset was scraped using VK API methods. It is licensed under a public license, permitting its use in scientific research, design work and other applicable scenarios, with the sole requirement being to provide a link to this dataset.
提供机构:
daniilak
原始信息汇总
数据集概述
数据集描述
该数据集包含社交网络VKontakte(VK.COM)的所有公共页面(社区或群组)的列表。当前数量为222,130,000个社区。数据集包含25个字段,CSV文件以" "分隔。此外,还有一个包含41,614个元素的已验证群组列表。
字段描述
完整版本字段
- id: 整数,社区ID
- screen_name: 字符串,社区名称
- members_count: 字符串,短地址,例如,apiclub
- name: 字符串,社区名称
- type: 字符串,社区类型:group — 群组;page — 公共页面;event — 事件
- verified: 整数,社区是否已验证。可能的值:1 — 是;0 — 否
- description: 字符串,社区描述文本
- activity: 字符串,公共主题字符串。对于群组,返回字符串值,表示群组是否开放,对于事件,返回开始日期
- can_see_all_posts: 整数,是否允许查看社区墙上的其他人帖子。可能的值:1 — 可以;0 — 不可以
- city_id: 整数,社区信息中指定的城市ID
- city_title: 整数,社区信息中指定的城市名称
- contacts: JSON数组,公共页面联系人块的信息。包含多个对象,每个对象可能包含字段:user_id(整数)— 用户ID;desc(字符串)— 职位;phone(字符串)— 电话号码;email(字符串)— 电子邮件地址
- country_id: 整数,社区信息中指定的国家ID
- country_title: 字符串,社区信息中指定的国家名称
- deactivated: 字符串,如果社区已删除或禁用,则返回。可能的值:deleted — 社区已删除;banned — 社区被封禁
- deactivated_message: 字符串,社区封禁的原因
- deactivated_type: 字符串,如果社区被删除或封禁,包含deleted或banned
- finish_date: 会议社区包含会议结束时间的Unix时间格式。对于公共页面,仅包含start_date — 成立日期,格式为YYYYMMDD
- is_closed: 整数,社区是否关闭。可能的值:0 — 开放;1 — 关闭;2 — 私密
- photo_100: 字符串,主照片的URL,尺寸为100x100px
- photo_200: 字符串,主照片的最大尺寸URL
- photo_50: 字符串,主照片的URL,尺寸为50x50px
- site: 字符串,在个人资料中指定的网站地址
- start_date: 会议社区包含会议开始时间的Unix时间格式。对于公共页面,仅包含start_date — 成立日期,格式为YYYYMMDD
- status: 字符串,社区状态
精简版本字段
- id: 整数,社区ID
- members_count: 字符串,短地址,例如,apiclub
- name: 字符串,社区名称
- type: 字符串,社区类型:group — 群组;page — 公共页面;event — 事件
- verified: 整数,社区是否已验证。可能的值:1 — 是;0 — 否
- activity: 字符串,公共主题字符串。对于群组,返回字符串值,表示群组是否开放,对于事件,返回开始日期
- city_id: 整数,社区信息中指定的城市ID
- country_id: 整数,社区信息中指定的国家ID
- deactivated: 字符串,如果社区已删除或禁用,则返回。可能的值:deleted — 社区已删除;banned — 社区被封禁
- finish_date: 会议社区包含会议结束时间的Unix时间格式。对于公共页面,仅包含start_date — 成立日期,格式为YYYYMMDD
- is_closed: 整数,社区是否关闭。可能的值:0 — 开放;1 — 关闭;2 — 私密
- site: 字符串,在个人资料中指定的网站地址
数据集创建
数据通过VK API方法(https://dev.vk.com/ru/method/groups.getById)抓取。
许可证
该数据集的许可证是公共的,您可以在科学研究、设计工作和其他工作中使用它。唯一的条件是发布指向该数据集的链接。
搜集汇总
数据集介绍

构建方式
该数据集通过VKontakte(VK.COM)社交网络的API方法[https://dev.vk.com/ru/method/groups.getById]进行抓取构建,包含了所有公开页面(社区或群组)的信息。数据集共包含25个字段,采用CSV格式存储,并以制表符(\t)作为字段分隔符。数据集中还包括了一个经过验证的群组列表,共包含41614个元素。
特点
数据集的特点在于其规模宏大,涵盖了超过2亿2千1百30万的社区信息,为研究者提供了极其丰富的社交网络数据资源。每个社区的信息详尽,包括社区ID、名称、成员数量、类型、验证状态、描述、活动状态等25个字段,全面反映了社区的基本情况和活动状态。此外,数据集还提供了社区的地理位置、联系方式、网站链接等额外信息,为深入分析和研究提供了可能。
使用方法
用户可以直接使用数据集中的信息进行社交网络分析、社区发现、文本生成等任务。数据集的CSV格式便于导入至数据分析软件或编程语言中处理。在使用时,用户应遵守CC0-1.0协议,合法使用数据,并在公开研究成果时提供数据集链接,以符合数据集的使用规定。
背景与挑战
背景概述
VK.Groups数据集是一个涵盖俄罗斯社交网络VKontakte(VK.COM)上所有公开页面(社区或群组)的详尽列表。该数据集的创建旨在为研究人员提供关于社交网络中公共页面的结构和内容的深入了解,其创建时间为数据抓取时期,由专业研究人员或机构通过VK API方法进行。数据集的核心研究问题聚焦于社交网络群组的分类、活跃度分析以及成员互动模式。VK.Groups数据集的发布对社交网络分析、网络社会学以及计算社会科学领域产生了显著影响,为相关研究提供了宝贵的数据资源。
当前挑战
该数据集在研究领域中面临的挑战主要包括数据的时效性问题,因为社交网络中的群组数量和状态是动态变化的,需要定期更新以保持数据的准确性。构建过程中遇到的挑战则涉及数据抓取的技术难题,包括API的限制、数据隐私的处理以及大规模数据的存储和管理。此外,如何有效地利用这些数据来解决社交网络分析中的具体问题,如群组成员行为预测、社交网络舆情分析等,也是当前研究中的一个重要挑战。
常用场景
经典使用场景
在社会科学研究中,daniilak/vk_groups数据集提供了一个宝贵的资源,它被广泛用于文本生成任务,特别是在分析社交网络结构和用户行为方面。该数据集的经典使用场景包括挖掘社交网络中的群体特征,如群体规模、活跃度以及地理分布,进而用于构建社会网络模型,分析群体间的交互模式。
解决学术问题
该数据集解决了学术研究中关于大规模社交网络群体分析和建模的难题。通过提供详细的群体信息和成员数据,研究人员能够深入理解社交网络的结构和动态,这对于研究群体行为、信息传播以及社交网络对现实世界事件的影响具有重要意义。
衍生相关工作
基于daniilak/vk_groups数据集,衍生出了一系列相关的工作,包括社交网络分析算法的开发、群体分类模型的构建以及社交网络影响力评估方法的研究。这些工作进一步扩展了数据集的应用范围,推动了社交网络分析领域的发展。
以上内容由遇见数据集搜集并总结生成



