virgool-users

Hugging Face2025-12-21 更新2025-12-22 收录

下载链接：

https://huggingface.co/datasets/EhsanShahbazi/virgool-users

下载链接

链接失效反馈

官方服务：

资源简介：

Virgool用户数据集是一个结构化的数据集，包含Virgool平台用户的信息，用于波斯语/英语文本分类、特征提取、社交图分析和用户生成内容研究。数据集包含用户元数据（如用户名、显示名称、头像URL、个人简介、公开个人资料URL、粉丝数、关注数等）和波斯语/英语简介。数据集适用于NLP研究、社交图建模、用户聚类和推荐系统特征工程等用途。所有数据均来自公开可访问的Virgool个人资料，遵循MIT许可协议，仅供研究和教育使用。

创建时间：

2025-12-21

原始信息汇总

Virgool Users 数据集概述

数据集基本信息

数据集名称: virgool users
托管地址: https://huggingface.co/datasets/EhsanShahbazi/virgool-users
许可证: mit
任务类别: 文本分类、特征提取
支持语言: 波斯语 (fa)、英语 (en)
相关标签: virgool, blogs
数据规模: 100K<n<1M

数据结构与内容

数据集包含一个名为 virgool-users.parquet 的数据文件，其结构对应以下数据库表模式：

sql CREATE TABLE IF NOT EXISTS users ( username TEXT PRIMARY KEY, name TEXT, hash TEXT, avatar TEXT, bio TEXT, url TEXT, followers_count INTEGER, following_count INTEGER, scraped INTEGER DEFAULT 1 );

字段描述

字段名	类型	描述
`username`	TEXT (主键)	唯一的 Virgool 用户名
`name`	TEXT	用户的显示名称
`hash`	TEXT	内部的 Virgool 哈希标识符
`avatar`	TEXT	用户个人资料图片的 URL
`bio`	TEXT	用户个人简介（波斯语或英语）
`url`	TEXT	公开个人资料 URL
`followers_count`	INTEGER	粉丝数量
`following_count`	INTEGER	关注账户数量
`scraped`	INTEGER	爬取状态标志（默认值: 1）

数据集内容

包含 Virgool 平台用户的元数据（个人资料信息、计数数据）。
包含波斯语和英语的个人简介文本。
不包含帖子或私人数据，仅包含公开可见的个人资料信息。

预期用途

针对波斯语/英语用户简介的 NLP 研究。
社交图谱建模。
用户聚类与细分。
推荐系统的特征工程。
波斯语文本的嵌入预训练。

重要说明

所有数据均从公开可访问的 Virgool 个人资料中收集。
数据集遵循 MIT 许可证，仅供研究和教育用途。

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，数据集的构建方法直接影响其研究价值。Virgool Users数据集通过系统化的网络爬取技术，从波斯语社交平台Virgool的公开用户档案中提取信息，构建了一个结构化的用户元数据集合。该过程遵循严谨的数据采集协议，确保仅收集公开可见的字段，如用户名、个人简介及社交关系数量，并存储为Parquet格式，以支持高效的数据处理与分析。

使用方法

研究人员可利用该数据集进行波斯语与英语的文本分类模型训练，或从中提取特征以构建用户画像与社交图谱。在具体应用中，可加载Parquet文件至数据分析框架，针对个人简介字段实施嵌入预训练，或结合追随者数量等指标开展用户聚类与推荐系统研究，为波斯语区域的社交媒体分析提供实证基础。

背景与挑战

背景概述

Virgool-users数据集聚焦于波斯语和英语社交媒体用户分析，由研究人员于近年构建，旨在支持自然语言处理与社会网络计算的交叉研究。该数据集源自Virgool平台，一个波斯语内容创作社区，通过爬取公开用户资料，系统收录了用户名、个人简介、社交关系等结构化信息。其核心研究问题在于探索多语言用户生成内容的特征表示、社会图建模及用户行为模式，为波斯语NLP资源相对匮乏的现状提供了重要补充，推动了跨文化社交媒体分析领域的发展。

当前挑战

该数据集致力于解决社交媒体用户分析与多语言文本处理的挑战，具体包括：在领域问题层面，波斯语与英语混合文本的分类与特征提取面临语言差异与文化语境复杂性，同时社会图分析需应对稀疏连接与动态演化问题；在构建过程中，数据采集需克服平台反爬机制与隐私合规约束，而用户简介的非结构化文本清洗、多语言标注一致性以及数据时效性维护亦是关键难点。

常用场景

经典使用场景

在波斯语与英语混合的社交媒体分析领域，Virgool Users数据集为研究者提供了丰富的用户档案信息，尤其适用于文本分类任务。通过分析用户的个人简介（bio）字段，该数据集能够支持对波斯语和英语文本的语言识别、情感分析或主题分类研究，为多语言环境下的自然语言处理模型训练与评估奠定基础。

解决学术问题

该数据集有效解决了社交媒体研究中用户生成内容的多语言处理难题，特别是在波斯语资源相对匮乏的背景下。它使得学者能够深入探究用户画像构建、社交网络结构分析以及跨语言特征提取等核心问题，推动了计算社会科学与自然语言处理交叉领域的发展，并为波斯语数字人文研究提供了关键数据支撑。

实际应用

在实际应用中，Virgool Users数据集可服务于个性化推荐系统的开发，通过用户简介与社交关系数据实现更精准的内容分发与用户分群。此外，该数据集也能辅助平台进行社区治理与用户行为分析，为社交媒体运营策略的优化提供数据驱动的决策依据。

数据集最近研究