About.me Dataset
收藏github2022-06-27 更新2024-05-31 收录
下载链接:
https://github.com/ovunck/about-me-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由About.me网站的用户信息生成,旨在收集不同社交网络网站的用户连接信息。数据集包含了约2000名用户(1100名男性和900名女性)的信息,包括LinkedIn、Facebook、Instagram和Twitter等社交网络的用户名。
This dataset is generated from user information on the About.me website, aiming to collect user connection information from various social networking sites. The dataset includes information from approximately 2000 users (1100 males and 900 females), encompassing usernames from social networks such as LinkedIn, Facebook, Instagram, and Twitter.
创建时间:
2015-07-20
原始信息汇总
About.me Dataset 概述
数据集来源与目的
- 数据集来源于个人网站托管服务 About.me,用户在该平台上可以链接其社交网络账户。
- 目的:收集不同社交网络网站的用户信息,以便分析用户之间的连接。
数据收集方法
- 使用美国社会保障网站上的前100名男性和女性名字进行搜索,获取About.me用户名列表。
- 通过用户/view/<username> API调用获取用户信息。
- 提取并保存每个用户的社交网络用户名(目前包括LinkedIn, Facebook, Instagram, Twitter)。
数据集规模
- 包含约2000名用户的信息(1100名男性,900名女性)。
数据集内容
- raw_data:包含从About.me API返回的json对象,存储为单个.txt文件。
- males.csv, females.csv:从About.me返回的json对象生成的csv表格。
探索性分析
- 分析不同社交网络用户名与性别之间的关系。
- 基于名字预测社交网络用户名。
附加文件
- plot.py:基于Python数据分析库的探索性分析代码。
搜集汇总
数据集介绍

构建方式
About.me数据集是通过从About.me平台收集用户信息构建而成的。研究者利用美国社会保障局网站提供的男性和女性前100名常用名字,在About.me平台上进行搜索,获取用户列表。随后,通过调用About.me的用户信息API,获取每个用户的详细信息,并从中提取出用户在LinkedIn、Facebook、Instagram和Twitter等四个社交网络上的用户名。这些信息最终被保存为CSV文件,数据集目前包含约2000名用户的信息,且将持续更新。
特点
该数据集的一个显著特点是其涵盖了用户在多个主流社交平台上的用户名信息,为研究社交网络用户行为提供了丰富的数据基础。此外,数据集还包含了用户的性别信息,使得研究者能够进一步探讨性别与用户名选择之间的关系。数据集的结构清晰,包含原始JSON数据和经过处理的CSV文件,便于不同层次的分析需求。
使用方法
该数据集的使用方法较为灵活,用户可以直接从CSV文件中读取数据进行分析,或通过原始JSON数据进行更深入的处理。研究者可以利用该数据集进行社交网络用户名的预测分析,或探讨性别与用户名选择之间的关联。此外,数据集还附带了Python代码,用于进行探索性数据分析,帮助用户快速上手并开展相关研究。
背景与挑战
背景概述
About.me数据集源于个人网页托管服务About.me,该平台允许用户链接其社交媒体账户,旨在为用户提供分析其社交网络连接的工具。该数据集由研究人员通过从美国社会保障局网站获取的男性和女性常见名字列表,结合About.me的用户API接口,收集了约2000名用户(1100名男性和900名女性)的社交媒体用户名信息,涵盖LinkedIn、Facebook、Instagram和Twitter四大平台。该数据集的核心研究问题聚焦于分析不同社交媒体用户名之间的关联性,以及性别对用户名选择的影响。其研究成果对社交网络分析、用户行为研究等领域具有重要的参考价值。
当前挑战
About.me数据集在构建过程中面临多重挑战。首先,数据采集依赖于About.me的API接口,其数据访问限制和接口稳定性可能影响数据集的完整性和实时性。其次,用户名的多样性和复杂性增加了数据分析的难度,尤其是在预测用户名与姓名关联性时,需处理大量噪声数据。此外,数据集仅涵盖四大社交媒体平台,未能全面反映用户的社交网络行为,限制了其应用范围。最后,数据集的性别分布虽较为均衡,但样本量相对较小,可能影响研究结果的普适性和可靠性。
常用场景
经典使用场景
About.me数据集广泛应用于社交网络分析领域,特别是在研究用户在不同社交平台上的行为模式和身份管理策略。通过分析用户在About.me上公开的个人信息及其关联的社交媒体账号,研究者能够深入探讨用户如何在不同平台上构建和管理其数字身份。
实际应用
在实际应用中,About.me数据集为社交媒体营销和用户行为预测提供了宝贵的数据支持。企业可以利用这些数据来优化其社交媒体策略,预测用户在不同平台上的行为趋势,从而制定更精准的营销方案。此外,该数据集还可用于开发个性化推荐系统,提升用户体验。
衍生相关工作
基于About.me数据集,研究者已开展了多项经典工作,如社交网络用户名预测模型和跨平台用户行为分析。这些研究不仅深化了对用户数字身份管理的理解,还为社交网络平台的优化提供了理论依据。此外,该数据集还催生了多个开源工具和算法,进一步推动了社交网络分析领域的发展。
以上内容由遇见数据集搜集并总结生成



