five

Msobhi/virgool_62k

收藏
Hugging Face2024-06-20 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Msobhi/virgool_62k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从virgool.io网站抓取的公开数据集合,包含约62,000个条目,涵盖标题、文本、标签、点赞、回复、阅读时间、用户ID和URL等关键属性。该资源特别适用于研究人员和开发者预训练大型语言模型(LLMs),因为“文本”列提供了丰富的语言使用语料库。此外,“标签”列非常适合主题建模应用。“点赞”和“回复”列提供了定量洞察,可用于评估内容参与度,并有助于开发分类器以识别高质量或信息丰富的内容。数据集由Mohamad Sobhi策划,语言为波斯语,采用apache-2.0许可证。需要注意的是,数据集包含来自不同博主的个人观点,可能反映作者的偏见。

该数据集是从virgool.io网站抓取的公开数据集合,包含约62,000个条目,涵盖标题、文本、标签、点赞、回复、阅读时间、用户ID和URL等关键属性。该资源特别适用于研究人员和开发者预训练大型语言模型(LLMs),因为“文本”列提供了丰富的语言使用语料库。此外,“标签”列非常适合主题建模应用。“点赞”和“回复”列提供了定量洞察,可用于评估内容参与度,并有助于开发分类器以识别高质量或信息丰富的内容。数据集由Mohamad Sobhi策划,语言为波斯语,采用apache-2.0许可证。需要注意的是,数据集包含来自不同博主的个人观点,可能反映作者的偏见。
提供机构:
Msobhi
原始信息汇总

数据集概述

该数据集是从virgool.io网站上公开可用的数据集合中提取的。数据提取是基于特定的标签和用户进行的。数据集包含约62,000条记录,涵盖以下关键属性:标题、文本、标签、点赞数、回复数、阅读时间、用户ID和URL。

数据集描述

  • 策划者: Mohamad Sobhi
  • 语言(NLP): 波斯语
  • 许可证: apache-2.0

数据集结构

数据集包含以下8列:

  • 标题
  • 文本
  • 标签
  • 点赞数
  • 回复数
  • 阅读时间
  • 用户ID
  • URL

偏见、风险和局限性

请注意,该数据集包含来自virgool.io上各种博主的个人意见。因此,信息可能并不总是事实,并且可能反映作者的个人偏见。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作