pooyaphoenix/hystoclass
收藏Hugging Face2023-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pooyaphoenix/hystoclass
下载链接
链接失效反馈官方服务:
资源简介:
hystoclass(混合社交文本和表格分类)数据集是从Instagram故事中收集的,特别注重隐私。除了故事中发布的文本外,该数据集还包括背景颜色、文本颜色和字体等图形特征。数据集包含一个名为content的波斯语文本特征。数据集被人工监督分为18个类别,包括事件、政治、广告和商业、浪漫、励志、文学、社交网络、科学、社交、IT、建议、学术、化妆品和女性、宗教、体育、房地产和住房、旅游和医疗。
The Hystoclass (Hybrid Social Text and Table Classification) dataset is collected from Instagram Stories, with special emphasis on privacy protection. In addition to the text posted in the Stories, the dataset also includes graphical features such as background color, text color, and font. The dataset contains a Persian text feature named "content". The dataset is manually classified into 18 categories under human supervision, including events, politics, advertising and commerce, romance, inspirational content, literature, social networks, science, social life, IT, advice, academia, cosmetics and women-related topics, religion, sports, real estate and housing, tourism, and medical care.
提供机构:
pooyaphoenix
原始信息汇总
数据集概述
数据集名称
hystoclass
数据集描述
hystoclass(混合社交文本与表格分类)是从Instagram故事中收集的,注重隐私保护。除了故事中发布的文本外,该数据集还包含背景颜色、文本颜色和字体等图形特征,以及名为content的波斯语文本特征。
数据集类别
该数据集通过人工监督分为18个类别:
- 事件
- 政治
- 广告与商业
- 浪漫
- 励志
- 文学
- 社交网络
- 科学
- 社会
- IT
- 建议
- 学术
- 化妆品与女性
- 宗教
- 体育
- 房产与住房
- 旅游
- 医疗
数据集特征
- 语言:波斯语(fa)
- 任务类别:文本分类、令牌分类
- 标签:表格数据、文本分类、社交网络、集成学习
- 大小类别:1K<n<10K
许可证
openrail



