links-ads/twitter-neighbours
收藏Hugging Face2024-02-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/links-ads/twitter-neighbours
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从Twitter提取的采样图,起始于一组种子用户列表。每个用户最初通过其推文样本的平均文本嵌入(向量)表示,用户之间通过Twitter上的‘关注/被关注’属性相互连接。数据集统计信息包括用户数量为36122,边数量为84026,用户初始嵌入大小为768。数据集文件包括用于PyG的图数据紧凑表示和包含邻接矩阵稀疏表示、用户初始嵌入及训练测试分割的JSON文件。
# Twitter邻居数据集(Twitter Neighbours dataset)
本仓库包含为APPRAISE项目(H2020-SU-SEC-2020)构建的数据集。
# 数据集说明
本数据集包含从Twitter抽取的采样图,其构建起始于一组种子用户列表。每个用户最初通过语义嵌入(semantic embedding,向量)进行表征,该嵌入由其推文样本的文本嵌入平均值计算得到;用户之间通过Twitter的「关注/被关注」关系建立连接。
# 统计信息
- 用户数量:36122
- 边数量:84026
- 用户初始嵌入维度:768
# 文件说明
graph_train_and_test.pygeodata:面向PyG使用的紧凑式图表示文件。
twitter_neighs_graph.json:一个字典类型文件,包含以下字段:
- 'adj_sparse':稀疏形式的邻接矩阵
- 'user_init_embs':用户初始嵌入,由其推文的文本嵌入平均值计算得到
- 'train_test_split':0/1一维列表,其中0代表该用户属于训练集,1代表其属于测试集
提供机构:
links-ads
原始信息汇总
Twitter Neighbours 数据集
描述
该数据集是从Twitter中提取的一个采样图,起始于一组种子用户。每个用户最初由一个语义嵌入(向量)表示,该嵌入是用户推文样本的文本嵌入的平均值,用户之间通过Twitter上的“关注/被关注”属性相互连接。
统计信息
- 用户数量:36122
- 边数量:84026
- 用户初始嵌入大小:768
文件
graph_train_and_test.pygeodata:用于PyG使用的图的紧凑表示。twitter_neighs_graph.json:包含以下内容的字典:adj_sparse:稀疏表示的邻接矩阵user_init_embs:用户初始嵌入,计算为用户推文文本嵌入的平均值train_test_split:0/1一维列表,其中0表示用户在训练集中,1表示用户在测试集中



