five

Awesome Iranian Datasets

收藏
github2024-05-10 更新2024-05-31 收录
下载链接:
https://github.com/MEgooneh/awesome-Iran-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个收集了多个分类的伊朗/波斯语数据集的集合,包括但不限于文学、地理位置、健康护理、社交媒体等领域。

A collection of multiple categorized datasets in Persian/Iranian language, encompassing but not limited to literature, geographical locations, healthcare, and social media domains.
创建时间:
2022-06-12
原始信息汇总

Awesome Iranian Datasets 概述

数据集分类

Persian

  • کلمات اسپم پیامک‌ها: 包含垃圾短信中的波斯语词汇。
  • کلمات فارسی: 波斯语词汇数据集。
  • کلمات بد و نامناسب فارسی: 包含不适当或粗俗的波斯语词汇。
  • پیامک‌های فارسی: 波斯语短信数据集。
  • نام‌های فارسی به همراه جنسیت(۲۰هزار): 包含20,000个波斯名字及其性别信息。
  • عبارات دستنویس فارسی: 波斯语手写短语数据集。
  • وکال فارسی: 波斯语语音数据集。
  • وکال فارسی ۲: 另一个波斯语语音数据集。
  • تصاویر دستنویس شهرهای ایران به فارسی: 伊朗城市名称的手写图像。
  • دیتاست سوال و پاسخ سوالات تعریفی فارسی: 波斯语定义问题及其答案数据集。
  • دیتاست درخواست و پرسش برای دستیار صوتی: 用于语音助手的波斯语问题数据集。
  • حروف الفبا با فونت های متفاوت: 不同字体的波斯字母数据集。
  • دیتابیس وکال/صوتی جملات فارسی: 波斯语语音句子数据库。
  • تیتر استخدامی و مشاغل در ایران: 伊朗招聘信息和职位数据集。

Locations

  • استان‌ها و شهرهای ایران: 伊朗省份和城市数据集。
  • شهرستان های ایران: 伊朗县数据集。

Literature

  • سخن بزرگان فارسی: 波斯语名言数据集。
  • لغتنامه معکوس فارسی: 波斯语逆向词典数据集。
  • کامنت‌ها و نظرات کتاب‌های طاقچه: 关于书籍的评论和意见数据集。
  • دیتاست کتاب های فارسی: 波斯语书籍数据集。
  • دیتاست اشعار نو: 现代波斯诗歌数据集。
  • ترجمه‌ی فارسی قرآن: 古兰经的波斯语翻译数据集。
  • اشعار حافظ: 哈菲兹的诗句数据集。
  • اطلاعات کتاب‌های فارسی در دیجیکالا: 在Digikala上的波斯语书籍信息数据集。

Health care

  • پایگاه‌های انتقال خون ایران: 伊朗血液传输中心数据集。
  • اخبار خبرگزاری ایسنا درباره‌ی کوید۱۹/کرونا: 关于COVID-19的新闻数据集。
  • تصادفات جاده‌ای: 交通事故数据集。
  • آمار کووید۱۹: COVID-19统计数据集。

Social Media

  • مجموعه توییت‌ها درباره‌ی دربی فوتبال: 关于足球死亡的推文数据集。
  • توییت‌های طرفداران داعش: 支持ISIS的推文数据集。
  • توییت‌های انگلیسی رئیس‌جمهور روحانی: 鲁哈尼总统的英语推文数据集。
  • توییت‌های انگلیسی وزیرامورخارجه آقای ظریف: 外长扎里夫的英语推文数据集。
  • کامنت‌های اینستاگرام پیج نماوا و فیلیمو: 关于NemaVoa和Filimo的Instagram评论数据集。
  • نظرات کالاهای دیجیکالا: Digikala商品的评论数据集。
  • توییت‌های فارسی دسته‌بندی شده بر اساس احساسات: 基于情感分类的波斯语推文数据集。
  • چت نوجوان‌ها: 青少年聊天数据集。
  • مقالات فارسی در ویرگول: 波斯语文章数据集。
  • توییت‌های اعتراضات ۱۴۰۱: 关于2022年伊朗抗议的推文数据集。

Governments

  • پایگاه های انتقال خون ایران: 伊朗血液传输中心数据集。
  • کدهای شهرستان‌ها: 伊朗县代码数据集。
  • قانون اساسی جمهوری اسلامی ایران: 伊朗伊斯兰共和国宪法数据集。
  • علائم ترافیکی و راهنمایی‌رانندگی ایران: 伊朗交通标志和驾驶指南数据集。

News

  • اخبار فارسی: 波斯语新闻数据集。
  • اخبار فارسی ۲: 另一个波斯语新闻数据集。
  • اخبار خبرگزاری تسنیم: Tasnim通讯社新闻数据集。
  • اخبار بی‌ بی سی فارسی: BBC波斯语新闻档案数据集。
  • تصاویر و عکس های خبرگزاری تسنیم: Tasnim通讯社新闻图片数据集。
  • اخبار خبرگزاری ایسنا درباره‌ی کوید۱۹/کرونا: 关于COVID-19的ISNA新闻数据集。
  • خبرگزاری فارس سال ۱۳۹۸: Fars News 2019年新闻数据集。

Sports

  • مجموعه توییت ها درباره ی دربی فوتبال: 关于足球死亡的推文数据集。

Finance

  • بورس تهران: 德黑兰证券交易所数据集。
  • سهام و بورس: 股票和证券交易所数据集。
  • قیمت ملک در تهران: 德黑兰房产价格数据集。
  • شاخص بورس ایران: 伊朗证券交易所指数数据集。
  • آمار اقتصاد/ جامعه/ زیست‌محیطی ایران (بانک جهانی) - سری زمانی: 伊朗经济、社会和环境统计数据集。
  • میزان تولید و مصرف نفت: 石油生产和消费数据集。
  • اطلاعات پروازهای داخلی و خارجی ایران سال ۲۰۲۳: 2023年伊朗国内和国际航班信息数据集。
  • بیش از ۲ میلیون محصول و نظرات از سایت باسلام(۱۴۰۳): Basalam网站上的产品和评论数据集。
  • بیش از ۱ میلیون محصول دیجیکالا(۱۴۰۳): Digikala网站上的产品和评论数据集。

Politics

  • آمار روزانه اعتراضات ۱۴۰۱: 2022年伊朗抗议每日统计数据集。

Environmental

  • زلزله در ایران: 伊朗地震数据集。
  • میزان بارندگی شهرهای ایران: 伊朗城市月平均降水量数据集。
  • تحلیل و داده‌های کشاورزی در ایران: 伊朗农业数据分析数据集。

Photos

  • علائم تجاری شرکت‌ها: 公司商标图像数据集。
  • آگهی‌های دیوار: 墙壁广告图像数据集。
  • آگهی‌های ماشین در سایت دیوار: 在Divar网站上的汽车广告图像数据集。
  • تصاویر ماشین‌های مرسوم در ایران: 伊朗常见汽车图像数据集。
  • پلاک‌های ماشین ایرانی: 伊朗汽车牌照图像数据集。
  • علائم ترافیکی و راهنمایی‌رانندگی ایران: 伊朗交通标志和驾驶指南图像数据集。
  • تصاویر با توضیحات فارسی: 带有波斯语描述的图像数据集。
  • تصاویر ماشین‌های ایرانی: 伊朗汽车图像数据集。

Movies

  • لیست فیلم و سریال ایرانی: 伊朗电影和电视剧列表数据集。
  • لیست فیلم و سریال ایرانی از فیلیمو: 从Filimo获取的伊朗电影和电视剧列表数据集。

Music

  • لیست آثار فارسی در اسپاتیفای: 在Spotify上的波斯语艺术作品列表数据集。
  • لیست صوتی دستگاه‌های موسیقی سنتی: 传统音乐乐器的音频列表数据集。
  • پرشنونده ترین آهنگ‌های رادیوجوان: Radio Javan最受欢迎的歌曲数据集。

Culture

  • آمار ازدواج و طلاق: 伊朗婚姻和离婚统计数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Iranian Datasets 是一个汇集了大量伊朗和波斯语相关数据集的资源库。该数据集的构建方式主要依赖于社区贡献,涵盖了从自然语言处理到地理信息、医疗健康、社交媒体等多个领域的数据。每个数据集都通过链接指向其原始来源,如 Kaggle 和 GitHub,确保数据的可靠性和可追溯性。此外,数据集的分类清晰,便于用户根据需求快速定位相关数据。
特点
该数据集的显著特点在于其广泛性和多样性。它不仅包含了波斯语的自然语言处理数据,如词汇、短信、语音等,还涵盖了伊朗的地理、文化、政治、经济等多个领域的数据。数据集的分类细致,从新闻、社交媒体到医疗、环境等,几乎覆盖了社会生活的各个方面。此外,数据集的更新和维护依赖于社区的持续贡献,确保了数据的时效性和丰富性。
使用方法
用户可以通过访问 Awesome Iranian Datasets 的 GitHub 页面,根据分类浏览和下载所需的数据集。每个数据集都提供了详细的描述和链接,用户可以直接访问原始数据源进行下载和使用。对于需要特定类型数据的用户,可以通过搜索功能快速定位相关数据集。此外,用户还可以通过贡献指南参与数据集的更新和扩展,进一步丰富数据资源。
背景与挑战
背景概述
Awesome Iranian Datasets 是一个汇集了大量伊朗和波斯语数据集的综合性资源库,由 MEgooneh 等研究人员创建。该数据集涵盖了从语言学、地理、文学、医疗、社交媒体到金融、政治、环境等多个领域,旨在为研究者提供丰富的数据资源,以支持对伊朗社会、文化和经济的多维度分析。其创建时间虽未明确提及,但其广泛的分类和丰富的数据集表明,该资源库在近年来得到了持续的更新和扩展,对相关领域的研究具有重要的推动作用。
当前挑战
Awesome Iranian Datasets 面临的挑战主要集中在数据的质量和多样性上。首先,由于数据来源广泛,部分数据集可能存在标注不一致或缺失的问题,这为数据清洗和预处理带来了挑战。其次,波斯语作为一种非拉丁字母语言,其自然语言处理(NLP)技术相对滞后,尤其是在情感分析和文本分类等领域,模型的准确性和泛化能力仍需进一步提升。此外,数据集的多样性虽然丰富,但在某些特定领域(如环境数据或政治数据)可能存在数据量不足或更新不及时的问题,限制了相关研究的深入展开。
常用场景
经典使用场景
Awesome Iranian Datasets 提供了丰富的伊朗和波斯语数据集,涵盖了多个领域,如自然语言处理、地理信息、医疗健康、社交媒体等。其中,波斯语数据集尤为突出,包括波斯语词汇、短信、语音、手写文本等,这些数据集在语言模型训练、情感分析、语音识别等任务中具有广泛的应用。例如,波斯语短信数据集可用于垃圾短信检测,波斯语语音数据集则可用于语音合成和情感识别。
实际应用
在实际应用中,Awesome Iranian Datasets 的数据集被广泛应用于多个行业。例如,波斯语新闻数据集可用于新闻推荐系统,社交媒体数据集可用于舆情监控和情感分析。此外,地理信息数据集如伊朗城市和省份数据,为物流、旅游等行业提供了基础数据支持。金融领域的数据集如伊朗股市数据,则为投资者和分析师提供了重要的市场分析工具。
衍生相关工作
基于 Awesome Iranian Datasets,许多研究者和开发者开展了相关工作。例如,波斯语语音数据集被用于开发语音助手和语音识别系统,波斯语手写文本数据集则被用于手写体识别研究。此外,社交媒体数据集如伊朗抗议活动的推文数据,被用于社会运动分析和预测。这些衍生工作不仅丰富了数据集的应用场景,也为相关领域的技术进步提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作