five

pooyaphoenix/hystoclass

收藏
Hugging Face2023-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pooyaphoenix/hystoclass
下载链接
链接失效反馈
官方服务:
资源简介:
hystoclass(混合社交文本和表格分类)数据集是从Instagram故事中收集的,特别注重隐私。除了故事中发布的文本外,该数据集还包括背景颜色、文本颜色和字体等图形特征。数据集包含一个名为content的波斯语文本特征。数据集被人工监督分为18个类别,包括事件、政治、广告和商业、浪漫、励志、文学、社交网络、科学、社交、IT、建议、学术、化妆品和女性、宗教、体育、房地产和住房、旅游和医疗。

The Hystoclass (Hybrid Social Text and Table Classification) dataset is collected from Instagram Stories, with special emphasis on privacy protection. In addition to the text posted in the Stories, the dataset also includes graphical features such as background color, text color, and font. The dataset contains a Persian text feature named "content". The dataset is manually classified into 18 categories under human supervision, including events, politics, advertising and commerce, romance, inspirational content, literature, social networks, science, social life, IT, advice, academia, cosmetics and women-related topics, religion, sports, real estate and housing, tourism, and medical care.
提供机构:
pooyaphoenix
原始信息汇总

数据集概述

数据集名称

hystoclass

数据集描述

hystoclass(混合社交文本与表格分类)是从Instagram故事中收集的,注重隐私保护。除了故事中发布的文本外,该数据集还包含背景颜色、文本颜色和字体等图形特征,以及名为content的波斯语文本特征。

数据集类别

该数据集通过人工监督分为18个类别

  • 事件
  • 政治
  • 广告与商业
  • 浪漫
  • 励志
  • 文学
  • 社交网络
  • 科学
  • 社会
  • IT
  • 建议
  • 学术
  • 化妆品与女性
  • 宗教
  • 体育
  • 房产与住房
  • 旅游
  • 医疗

数据集特征

  • 语言:波斯语(fa)
  • 任务类别:文本分类、令牌分类
  • 标签:表格数据、文本分类、社交网络、集成学习
  • 大小类别:1K<n<10K

许可证

openrail

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作