five

DomainDemo

收藏
arXiv2025-01-14 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2501.09035v1
下载链接
链接失效反馈
官方服务:
资源简介:
DomainDemo数据集由东北大学等研究机构创建,旨在分析Twitter上不同人口统计群体分享域名的活动。该数据集涵盖了2011年至2022年间的数据,包含超过129,000个网站的相关信息,数据来源于150万Twitter用户与美国选民登记记录的匹配。数据集提供了用户的年龄、性别、种族、政治倾向和地理位置等详细信息,并通过五个衍生指标量化了用户分享域名的行为。该数据集的应用领域包括政治话语分析、信息传播研究等,旨在揭示不同社会人口群体在社交媒体上的信息分享模式及其对公共话语的影响。

The DomainDemo dataset was created by research institutions including Northeastern University, aiming to analyze the domain name sharing activities of different demographic groups on Twitter. Covering data from 2011 to 2022, this dataset contains relevant information of over 129,000 websites, and its data is sourced from the matching of 1.5 million Twitter users with U.S. voter registration records. The dataset provides detailed user information such as age, gender, race, political orientation and geographic location, and quantifies users' domain name sharing behaviors through five derived metrics. Its application fields include political discourse analysis, information dissemination research and other areas, aiming to reveal the information sharing patterns of different socio-demographic groups on social media and their impacts on public discourse.
提供机构:
东北大学网络科学研究所, 本-古里安大学软件与信息系统工程系, 布法罗大学计算机科学与工程系
创建时间:
2025-01-14
搜集汇总
数据集介绍
main_image_url
构建方式
DomainDemo 数据集的构建过程始于收集超过 1.5 亿美国 Twitter 用户的帖子,时间跨度从 2011 年到 2022 年。这些用户的信息与他们的选民登记记录进行匹配,从而获取了他们的年龄、性别、种族、政治倾向和地理位置等人口统计特征。通过分析用户分享的链接,数据集被组织成包含用户 ID、域名、年龄、性别、种族、政治倾向、州和年份月份的详细表格。然后,根据域名、年龄、性别、种族、政治倾向、州和月份将表格分组,计算分享次数、唯一用户数量和用户间分享计数的基尼指数。此外,还计算了域名的地方性和受众倾向性等五个衍生指标,以量化用户的人口统计特征与特定域名分享行为之间的关系。
特点
DomainDemo 数据集的特点包括其广泛的人口统计覆盖范围、长达 11 年的时间跨度和全面的数据组织。它不仅涵盖了美国不同社会人口群体在 Twitter 上的域名分享活动,还提供了与域名分享相关的用户人口统计特征的详细信息。数据集还包括五个衍生指标,这些指标可以量化域名的地方性和受众倾向性,为研究人员提供了深入分析在线政治话语中人口统计因素作用的工具。
使用方法
使用 DomainDemo 数据集时,研究人员可以探索域名分享行为与用户人口统计特征之间的关系。数据集的多元和单变量变体允许从不同维度(如州、种族、性别、年龄和政治倾向)分析分享模式。衍生指标如地方性和受众倾向性可以帮助研究人员评估域名在地理和政治上的定位。为了保护用户隐私,数据集的详细表格不对外公开,但研究人员可以申请访问聚合统计数据。此外,数据集的衍生指标和计算代码也已公开发布,以便研究人员可以根据自己的需求进行自定义分析。
背景与挑战
背景概述
社交媒体在传播网络内容方面发挥着至关重要的作用,尤其是在选举期间。然而,我们对人口统计因素与在线政治话语之间关联的理解仍然有限。为了填补这一空白,Kai-Cheng Yang等研究人员于2025年1月创建了一个名为DomainDemo的数据集。该数据集将Twitter上分享的域名与美国选民注册记录中相关用户的年龄、性别、种族、政治倾向和地理位置等人口统计特征联系起来,时间跨度从2011年到2022年。该数据集由超过150万Twitter用户组成,这些用户与他们的选民注册记录相匹配,从而更好地理解了一个十年期间在Twitter这个最突出的社交媒体平台上信息流的趋势,以及不同社会人口统计群体中注册美国选民的政治和公共话语趋势。通过将用户人口统计信息汇总到域名上,研究人员得出了五个指标,这些指标为超过129,000个网站提供了重要的见解。特别是,地方性和党派受众指标量化了域名的地理范围和意识形态倾向,这些指标与现有的分类方法有显著的一致性,这表明DomainDemo方法的有效性和可靠性。
当前挑战
DomainDemo数据集面临的挑战包括解决社交媒体内容传播与人口统计因素之间的关联性这一领域问题,以及构建过程中遇到的挑战。首先,社交媒体平台提供给研究人员的通常缺乏用户级别的人口统计数据。其次,当研究人员依赖于用户捐赠或调查来收集人口统计数据时,样本量往往不足以提供有关内容分享模式的有意义汇总见解,尤其是在域名级别。这些数据收集的挑战限制了我们对人口统计因素与在线政治话语之间相互作用进行综合分析的能力。DomainDemo数据集通过匹配Twitter用户和他们的选民注册记录来解决这个问题,但这一过程也带来了隐私保护和数据安全方面的挑战。此外,由于数据集的规模庞大,分析和解释数据也带来了挑战。
常用场景
经典使用场景
DomainDemo 数据集的创建旨在揭示不同人口统计学群体在社交媒体上的信息共享行为。通过对 Twitter 上的域名共享活动与用户的年龄、性别、种族、政治倾向和地理位置等人口统计学特征进行关联,该数据集为研究人员提供了一个宝贵的资源,用以深入分析社交媒体信息流及其与政治和公共话语之间的相互作用。DomainDemo 数据集的独特之处在于其基于美国选民登记记录的 Twitter 用户面板,这使得研究人员能够追踪和分析十年来信息流动的趋势,并了解不同社会人口群体中注册选民的政治和公共话语趋势。
衍生相关工作
DomainDemo 数据集的创建启发了许多相关的研究工作。例如,一些研究人员利用 DomainDemo 数据集来分析不同人口统计学群体在社交媒体上的信息共享行为,以及这些行为如何影响他们的政治观点和投票行为。其他研究人员则利用 DomainDemo 数据集来研究社交媒体上的信息传播模式,以及这些模式如何影响公共健康和新闻传播。此外,一些研究人员还利用 DomainDemo 数据集来开发新的算法和模型,以更好地理解和预测社交媒体上的信息共享行为。
数据集最近研究
最新研究方向
在社交媒体信息传播的领域中,DomainDemo数据集提供了一个前所未有的视角,通过将Twitter上分享的域名与其用户的年龄、性别、种族、政治倾向和地理位置等人口统计特征相关联,从而揭示了不同社会人口群体在信息传播中的作用。这一数据集的研究方向主要集中在以下几个方面:首先,通过分析用户的人口统计特征与域名分享模式之间的关系,研究者可以更深入地理解在线政治话语中的社会人口因素。其次,DomainDemo数据集的本地化和党派倾向指标为研究地方新闻业的变化和在线新闻平台的意识形态倾向提供了新的工具。最后,该数据集还使得研究者能够分析域名分享行为随时间的变化趋势,从而揭示信息流动和公共话语的长期演变。这些研究方向对于理解社交媒体在选举、公共健康危机等关键情境中的作用至关重要,并为未来研究提供了丰富的数据资源。
相关研究论文
  • 1
    DomainDemo: a dataset of domain-sharing activities among different demographic groups on Twitter东北大学网络科学研究所, 本-古里安大学软件与信息系统工程系, 布法罗大学计算机科学与工程系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作