hystoclass

github2025-05-13 更新2025-05-15 收录

下载链接：

https://github.com/pooyaphoenix/hystoclass-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

hystoclass是一个混合数据集，用于分类波斯语Instagram故事中的文本，包括文本和图形特征。该数据集专注于用户隐私，可用于自然语言处理、社交媒体内容分析和多模态学习研究。

hystoclass is a hybrid dataset designed for classifying text within Persian Instagram stories, incorporating both textual and graphical features. The dataset focuses on user privacy and can be utilized for natural language processing, social media content analysis, and multimodal learning research.

创建时间：

2025-05-13

原始信息汇总

hystoclass数据集概述

基本信息

数据集名称: hystoclass (Hybrid Social Text and Tabular Classification Dataset)
语言: 波斯语 (فارسی)
数据类型: 文本 + 图形特征 (背景颜色、文本颜色、字体)
主要文本特征: content
问题类型: 多类别分类
类别数量: 18个人工标注类别

类别列表

Event (رویداد)
Political (سیاسی)
Advertising and Business (تبلیغاتی و تجاری)
Romantic (عاشقانه)
Motivational (انگیزشی)
Literature (ادبیات)
Social Networks (شبکه‌های اجتماعی)
Scientific (علمی)
Social (اجتماعی)
IT (فناوری اطلاعات)
Advices (توصیه‌ها)
Academic (دانشگاهی)
Cosmetic and Feminine (آرایشی و زنانه)
Religious (مذهبی)
Sport (ورزشی)
Property and Housing (املاک و مسکن)
Tourism (گردشگری)
Medical (پزشکی)

应用领域

社交媒体内容分类
故事中的情感和表达风格分析
结合文本和外观特征的多模态建模
使用真实多样的数据增强LLM和生成模型

资源链接

Hugging Face数据集页面

搜集汇总

数据集介绍

构建方式

hystoclass数据集聚焦于波斯语社交媒体内容分析，采用多模态数据采集策略构建而成。研究团队从Instagram故事中系统性地收集了包含文本内容和视觉特征的混合数据，在确保用户隐私的前提下，通过人工标注流程将数据划分为18个语义类别。数据构建过程特别注重文本内容与图形特征（如背景色、文字颜色和字体样式）的关联性采集，为多模态学习提供了坚实基础。

特点

该数据集最显著的特点是波斯语社交媒体文本与视觉特征的有机结合，包含18个经过精细标注的内容类别，覆盖政治、商业、文学等多元领域。每个数据样本同时包含文本语义信息和视觉呈现特征，这种多模态特性为研究社交媒体内容的多维度表征提供了独特价值。数据标注采用人工验证机制，确保了类别划分的准确性和可靠性，特别适合跨模态表示学习任务。

使用方法

研究者可通过Hugging Face平台直接加载该数据集，其标准化的数据结构支持端到端的模型训练流程。典型应用场景包括：基于文本和视觉特征联合建模的多类别分类任务、社交媒体内容风格迁移研究，以及波斯语多模态表示学习。数据集已预置文本内容字段和视觉特征字段，支持传统机器学习模型和深度学习框架的直接调用，便于开展对比实验和消融研究。

背景与挑战

背景概述

hystoclass数据集作为一项专注于波斯语社交媒体内容分析的研究成果，由研究者pooyaphoenix团队于近年构建并发布。该数据集聚焦于Instagram故事中的波斯语文本分类问题，创新性地融合了文本特征与视觉样式特征（如背景色、字体等），填补了波斯语多模态社交数据分析的空白。其18个精细标注的类别体系覆盖政治、商业、文学等多元领域，为中东地区社交媒体计算研究提供了重要基准。数据集的设计充分考虑了用户隐私保护，已成为波斯语自然语言处理、多模态学习等领域的关键资源，推动了跨文化社交计算研究的发展。

当前挑战

该数据集首要解决波斯语社交媒体内容多维度分类的复杂性问题，其挑战体现在细粒度类别间的语义重叠（如商业广告与政治宣传的模糊边界），以及非正式网络语言特有的拼写变异。构建过程中，研究者需克服多模态特征对齐的技术障碍，包括文本语义与视觉样式的关联建模，同时面临波斯语特有的右向书写系统与复杂形态学特征带来的标注困难。隐私保护要求导致原始数据必须经过严格匿名化处理，这在一定程度上增加了特征提取与数据增强的复杂度。

常用场景

经典使用场景

在自然语言处理领域，hystoclass数据集因其独特的混合特性（文本与图形特征结合）而成为研究多模态分类任务的经典选择。该数据集特别适用于探索社交媒体内容的多维度分类问题，例如Instagram故事中的波斯语文本与视觉元素的联合分析。研究者通过该数据集能够深入理解文本内容与视觉呈现方式之间的关联性，为多模态学习提供丰富的实验素材。

衍生相关工作

基于hystoclass数据集已产生多项创新研究，包括融合视觉特征的波斯语文本分类框架、跨语言迁移学习模型等。部分工作探索了图形特征（如字体颜色）对分类性能的影响机制，另有研究将其与英语社交媒体数据集进行对比分析，揭示了文化差异对内容分类的影响规律。

数据集最近研究