Msobhi/virgool_62k
收藏Hugging Face2024-06-20 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Msobhi/virgool_62k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从virgool.io网站抓取的公开数据集合,包含约62,000个条目,涵盖标题、文本、标签、点赞、回复、阅读时间、用户ID和URL等关键属性。该资源特别适用于研究人员和开发者预训练大型语言模型(LLMs),因为“文本”列提供了丰富的语言使用语料库。此外,“标签”列非常适合主题建模应用。“点赞”和“回复”列提供了定量洞察,可用于评估内容参与度,并有助于开发分类器以识别高质量或信息丰富的内容。数据集由Mohamad Sobhi策划,语言为波斯语,采用apache-2.0许可证。需要注意的是,数据集包含来自不同博主的个人观点,可能反映作者的偏见。
该数据集是从virgool.io网站抓取的公开数据集合,包含约62,000个条目,涵盖标题、文本、标签、点赞、回复、阅读时间、用户ID和URL等关键属性。该资源特别适用于研究人员和开发者预训练大型语言模型(LLMs),因为“文本”列提供了丰富的语言使用语料库。此外,“标签”列非常适合主题建模应用。“点赞”和“回复”列提供了定量洞察,可用于评估内容参与度,并有助于开发分类器以识别高质量或信息丰富的内容。数据集由Mohamad Sobhi策划,语言为波斯语,采用apache-2.0许可证。需要注意的是,数据集包含来自不同博主的个人观点,可能反映作者的偏见。
提供机构:
Msobhi
原始信息汇总
数据集概述
该数据集是从virgool.io网站上公开可用的数据集合中提取的。数据提取是基于特定的标签和用户进行的。数据集包含约62,000条记录,涵盖以下关键属性:标题、文本、标签、点赞数、回复数、阅读时间、用户ID和URL。
数据集描述
- 策划者: Mohamad Sobhi
- 语言(NLP): 波斯语
- 许可证: apache-2.0
数据集结构
数据集包含以下8列:
- 标题
- 文本
- 标签
- 点赞数
- 回复数
- 阅读时间
- 用户ID
- URL
偏见、风险和局限性
请注意,该数据集包含来自virgool.io上各种博主的个人意见。因此,信息可能并不总是事实,并且可能反映作者的个人偏见。



