five

Persian Social Dataset

收藏
github2025-04-19 更新2025-04-22 收录
下载链接:
https://github.com/maorojloo/Persian-social-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含多个波斯语数据集,涵盖社交媒体、视频、论坛和电子商务平台的数据。这些数据集旨在支持开发者、数据分析师和研究人员的项目,特别是在自然语言处理和分析方面。

This repository hosts multiple Persian-language datasets that cover data from social media, video platforms, forums, and e-commerce platforms. These datasets are designed to support projects undertaken by developers, data analysts and researchers, particularly for natural language processing and analysis tasks.
创建时间:
2025-04-14
原始信息汇总

Persian Social Dataset 概述

数据集简介

  • 包含约3000万条匿名化的波斯语社交媒体记录
  • 旨在促进波斯语技术社区发展
  • 由8tag.ir公司提供社会合作支持

数据集列表

1. Persian Twitter Tweets (2000万条)

  • 内容:匿名波斯语推文
  • 用途:波斯语内容分析和NLP应用
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/persian-twitter-tweets-20m

2. Aparat Videos (80万条)

  • 内容:波斯语视频平台数据
  • 用途:视频内容分析和NLP应用
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/aparat-videos-iranian-video-platform800k

3. Digikala Comments (75万+200万条)

  • 内容:电商平台用户评论
  • 用途:客户意见分析和情感分析
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/digikala-comments-e-commerce-review750k

4. Digikala Products (11.7万条)

  • 内容:电商产品元数据
  • 用途:市场分析和产品推荐
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/digikala-products-product-metadata-117k

5. Rahavard Financial Posts (20万条)

  • 内容:金融社交媒体帖子
  • 用途:金融分析和经济讨论研究
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/rahavard-financial-social-media-200k-posts

6. Sahamyab Stock Market Posts (120万条)

  • 内容:股票市场平台帖子
  • 用途:股市分析和用户情绪研究
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/sahamyab-persian-stock-market-1-2m-posts

7. YouTube Posts (80万条)

  • 内容:波斯语YouTube视频数据
  • 用途:视频内容分析和创作者活动研究
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/youtube-posts-video-dataset-800k-records

8. Iranian TV Transcripts

  • 内容:国家电视台语音转录文本
  • 用途:语音转文本建模和电视内容分析
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/iranian-tv-speech-transcripts-irib-channels

9. Aparat Comments (117.6万条)

  • 内容:视频平台用户评论
  • 用途:用户意见分析和情感建模
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/aparat-comments-iranian-video-platform-176k

10. Ninisite Forum Comments (460万条)

  • 内容:论坛用户评论
  • 用途:社会行为分析和用户研究
  • 链接:https://www.kaggle.com/datasets/mohammadaminorojloo/ninisite-forum-comments-dataset-4-6m-records

应用领域

  • 数据分析
  • 语言建模
  • 情感分析
  • 相关领域应用
搜集汇总
数据集介绍
main_image_url
构建方式
Persian Social Dataset的构建源于对波斯语自然语言处理研究的迫切需求,通过系统化采集多个主流波斯语社交平台数据实现。数据集涵盖Twitter推文、Aparat视频元数据、Digikala电商评论等10个子集,采用匿名化处理技术移除用户敏感信息,确保数据隐私合规性。原始数据通过API接口和网页爬取相结合的方式获取,经过严格的去重、清洗和标注流程,最终形成超过3000万条高质量波斯语文本资源。
特点
该数据集以其规模宏大和多样性著称,包含社交媒体文本、视频元数据、电商评论等多模态数据,全面覆盖现代波斯语的各种语域特征。时间跨度上收录了近年来的实时数据,反映了波斯语使用的动态演变。特别值得注意的是数据集包含大量用户生成内容,为研究非正式波斯语表达提供了珍贵素材。每个子集均附带完整的元数据信息,包括时间戳、互动指标等,支持多维度的语言学和社会学分析。
使用方法
研究人员可通过Kaggle平台直接访问各子数据集,支持CSV等通用格式下载。数据集适用于波斯语语言模型预训练、情感分析、社交网络研究等多个NLP任务。使用前建议进行必要的预处理,如文本标准化和方言处理。为保障研究可复现性,建议引用原始数据来源并遵守平台使用条款。对于特定子集如电视转录数据,可结合语音识别技术进行跨模态研究。
背景与挑战
背景概述
波斯社交数据集(Persian Social Dataset)是由Mohammadamin Orojloo与伊朗科技公司8tag合作构建的大规模社交媒体数据资源,旨在推动波斯语自然语言处理技术的发展。该数据集包含来自Twitter、Aparat、Digikala等平台的逾3000万条匿名化文本记录,涵盖社交媒体帖子、视频评论、电商评价及金融论坛讨论等多模态内容,为波斯语语言模型训练提供了丰富的语料基础。其构建体现了中东地区研究者对低资源语种人工智能发展的积极贡献,弥补了波斯语在情感分析、话题检测等NLP任务中高质量数据集的空缺。
当前挑战
该数据集面临双重挑战:在领域问题层面,波斯语复杂的形态结构和混合书写体系(掺杂阿拉伯字母)对文本预处理与特征提取提出更高要求,而社交媒体特有的非正式表达进一步加剧语义消歧难度;在构建过程中,数据匿名化与隐私保护的平衡成为关键难题,特别是涉及金融评论等敏感信息时需严格遵循伦理准则,同时多源平台数据的异构格式整合与标注一致性保障也消耗了大量工程成本。
常用场景
经典使用场景
Persian Social Dataset作为波斯语社交媒体数据的综合性资源,其经典使用场景主要集中在自然语言处理(NLP)领域的研究与开发。该数据集整合了来自Twitter、Aparat、Digikala等多个平台的波斯语文本和视频数据,为研究者提供了丰富的语料库。在语言模型训练、情感分析、文本分类等任务中,这些数据能够有效支持模型的训练与验证,特别是在低资源语言环境下,填补了波斯语数据稀缺的空白。
实际应用
在商业应用层面,Persian Social Dataset为波斯语地区的企业提供了用户行为分析的宝贵资源。电商平台可通过Digikala评论数据优化推荐系统,金融机构能基于Rahavard和Sahamyab的金融文本预测市场趋势。媒体机构则利用IRIB电视转录数据改进语音识别技术。这些应用不仅提升了本地化服务的精准度,也为跨国企业进入中东市场提供了数据基础设施。
衍生相关工作
基于该数据集衍生的经典工作包括波斯语BERT预训练模型ParsBERT、情感分析框架PersianSentiment等。在ACL、EMNLP等顶级会议上,多篇论文采用该数据集的子集进行方言识别研究和社会舆情分析。伊朗科技大学开发的Persian NLP Pipeline等项目也将其作为基准测试数据,推动了波斯语处理工具链的标准化建设。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作