Awesome Iranian Datasets
收藏github2024-05-10 更新2024-05-31 收录
下载链接:
https://github.com/MEgooneh/awesome-Iran-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个收集了多个分类的伊朗/波斯语数据集的集合,包括但不限于文学、地理位置、健康护理、社交媒体等领域。
A collection of multiple categorized datasets in Persian/Iranian language, encompassing but not limited to literature, geographical locations, healthcare, and social media domains.
创建时间:
2022-06-12
原始信息汇总
Awesome Iranian Datasets 概述
数据集分类
Persian
- کلمات اسپم پیامکها: 包含垃圾短信中的波斯语词汇。
- کلمات فارسی: 波斯语词汇数据集。
- کلمات بد و نامناسب فارسی: 包含不适当或粗俗的波斯语词汇。
- پیامکهای فارسی: 波斯语短信数据集。
- نامهای فارسی به همراه جنسیت(۲۰هزار): 包含20,000个波斯名字及其性别信息。
- عبارات دستنویس فارسی: 波斯语手写短语数据集。
- وکال فارسی: 波斯语语音数据集。
- وکال فارسی ۲: 另一个波斯语语音数据集。
- تصاویر دستنویس شهرهای ایران به فارسی: 伊朗城市名称的手写图像。
- دیتاست سوال و پاسخ سوالات تعریفی فارسی: 波斯语定义问题及其答案数据集。
- دیتاست درخواست و پرسش برای دستیار صوتی: 用于语音助手的波斯语问题数据集。
- حروف الفبا با فونت های متفاوت: 不同字体的波斯字母数据集。
- دیتابیس وکال/صوتی جملات فارسی: 波斯语语音句子数据库。
- تیتر استخدامی و مشاغل در ایران: 伊朗招聘信息和职位数据集。
Locations
- استانها و شهرهای ایران: 伊朗省份和城市数据集。
- شهرستان های ایران: 伊朗县数据集。
Literature
- سخن بزرگان فارسی: 波斯语名言数据集。
- لغتنامه معکوس فارسی: 波斯语逆向词典数据集。
- کامنتها و نظرات کتابهای طاقچه: 关于书籍的评论和意见数据集。
- دیتاست کتاب های فارسی: 波斯语书籍数据集。
- دیتاست اشعار نو: 现代波斯诗歌数据集。
- ترجمهی فارسی قرآن: 古兰经的波斯语翻译数据集。
- اشعار حافظ: 哈菲兹的诗句数据集。
- اطلاعات کتابهای فارسی در دیجیکالا: 在Digikala上的波斯语书籍信息数据集。
Health care
- پایگاههای انتقال خون ایران: 伊朗血液传输中心数据集。
- اخبار خبرگزاری ایسنا دربارهی کوید۱۹/کرونا: 关于COVID-19的新闻数据集。
- تصادفات جادهای: 交通事故数据集。
- آمار کووید۱۹: COVID-19统计数据集。
Social Media
- مجموعه توییتها دربارهی دربی فوتبال: 关于足球死亡的推文数据集。
- توییتهای طرفداران داعش: 支持ISIS的推文数据集。
- توییتهای انگلیسی رئیسجمهور روحانی: 鲁哈尼总统的英语推文数据集。
- توییتهای انگلیسی وزیرامورخارجه آقای ظریف: 外长扎里夫的英语推文数据集。
- کامنتهای اینستاگرام پیج نماوا و فیلیمو: 关于NemaVoa和Filimo的Instagram评论数据集。
- نظرات کالاهای دیجیکالا: Digikala商品的评论数据集。
- توییتهای فارسی دستهبندی شده بر اساس احساسات: 基于情感分类的波斯语推文数据集。
- چت نوجوانها: 青少年聊天数据集。
- مقالات فارسی در ویرگول: 波斯语文章数据集。
- توییتهای اعتراضات ۱۴۰۱: 关于2022年伊朗抗议的推文数据集。
Governments
- پایگاه های انتقال خون ایران: 伊朗血液传输中心数据集。
- کدهای شهرستانها: 伊朗县代码数据集。
- قانون اساسی جمهوری اسلامی ایران: 伊朗伊斯兰共和国宪法数据集。
- علائم ترافیکی و راهنماییرانندگی ایران: 伊朗交通标志和驾驶指南数据集。
News
- اخبار فارسی: 波斯语新闻数据集。
- اخبار فارسی ۲: 另一个波斯语新闻数据集。
- اخبار خبرگزاری تسنیم: Tasnim通讯社新闻数据集。
- اخبار بی بی سی فارسی: BBC波斯语新闻档案数据集。
- تصاویر و عکس های خبرگزاری تسنیم: Tasnim通讯社新闻图片数据集。
- اخبار خبرگزاری ایسنا دربارهی کوید۱۹/کرونا: 关于COVID-19的ISNA新闻数据集。
- خبرگزاری فارس سال ۱۳۹۸: Fars News 2019年新闻数据集。
Sports
- مجموعه توییت ها درباره ی دربی فوتبال: 关于足球死亡的推文数据集。
Finance
- بورس تهران: 德黑兰证券交易所数据集。
- سهام و بورس: 股票和证券交易所数据集。
- قیمت ملک در تهران: 德黑兰房产价格数据集。
- شاخص بورس ایران: 伊朗证券交易所指数数据集。
- آمار اقتصاد/ جامعه/ زیستمحیطی ایران (بانک جهانی) - سری زمانی: 伊朗经济、社会和环境统计数据集。
- میزان تولید و مصرف نفت: 石油生产和消费数据集。
- اطلاعات پروازهای داخلی و خارجی ایران سال ۲۰۲۳: 2023年伊朗国内和国际航班信息数据集。
- بیش از ۲ میلیون محصول و نظرات از سایت باسلام(۱۴۰۳): Basalam网站上的产品和评论数据集。
- بیش از ۱ میلیون محصول دیجیکالا(۱۴۰۳): Digikala网站上的产品和评论数据集。
Politics
- آمار روزانه اعتراضات ۱۴۰۱: 2022年伊朗抗议每日统计数据集。
Environmental
- زلزله در ایران: 伊朗地震数据集。
- میزان بارندگی شهرهای ایران: 伊朗城市月平均降水量数据集。
- تحلیل و دادههای کشاورزی در ایران: 伊朗农业数据分析数据集。
Photos
- علائم تجاری شرکتها: 公司商标图像数据集。
- آگهیهای دیوار: 墙壁广告图像数据集。
- آگهیهای ماشین در سایت دیوار: 在Divar网站上的汽车广告图像数据集。
- تصاویر ماشینهای مرسوم در ایران: 伊朗常见汽车图像数据集。
- پلاکهای ماشین ایرانی: 伊朗汽车牌照图像数据集。
- علائم ترافیکی و راهنماییرانندگی ایران: 伊朗交通标志和驾驶指南图像数据集。
- تصاویر با توضیحات فارسی: 带有波斯语描述的图像数据集。
- تصاویر ماشینهای ایرانی: 伊朗汽车图像数据集。
Movies
- لیست فیلم و سریال ایرانی: 伊朗电影和电视剧列表数据集。
- لیست فیلم و سریال ایرانی از فیلیمو: 从Filimo获取的伊朗电影和电视剧列表数据集。
Music
- لیست آثار فارسی در اسپاتیفای: 在Spotify上的波斯语艺术作品列表数据集。
- لیست صوتی دستگاههای موسیقی سنتی: 传统音乐乐器的音频列表数据集。
- پرشنونده ترین آهنگهای رادیوجوان: Radio Javan最受欢迎的歌曲数据集。
Culture
- آمار ازدواج و طلاق: 伊朗婚姻和离婚统计数据集。
搜集汇总
数据集介绍

构建方式
Awesome Iranian Datasets 是一个汇集了大量伊朗和波斯语相关数据集的资源库。该数据集的构建方式主要依赖于社区贡献,涵盖了从自然语言处理到地理信息、医疗健康、社交媒体等多个领域的数据。每个数据集都通过链接指向其原始来源,如 Kaggle 和 GitHub,确保数据的可靠性和可追溯性。此外,数据集的分类清晰,便于用户根据需求快速定位相关数据。
特点
该数据集的显著特点在于其广泛性和多样性。它不仅包含了波斯语的自然语言处理数据,如词汇、短信、语音等,还涵盖了伊朗的地理、文化、政治、经济等多个领域的数据。数据集的分类细致,从新闻、社交媒体到医疗、环境等,几乎覆盖了社会生活的各个方面。此外,数据集的更新和维护依赖于社区的持续贡献,确保了数据的时效性和丰富性。
使用方法
用户可以通过访问 Awesome Iranian Datasets 的 GitHub 页面,根据分类浏览和下载所需的数据集。每个数据集都提供了详细的描述和链接,用户可以直接访问原始数据源进行下载和使用。对于需要特定类型数据的用户,可以通过搜索功能快速定位相关数据集。此外,用户还可以通过贡献指南参与数据集的更新和扩展,进一步丰富数据资源。
背景与挑战
背景概述
Awesome Iranian Datasets 是一个汇集了大量伊朗和波斯语数据集的综合性资源库,由 MEgooneh 等研究人员创建。该数据集涵盖了从语言学、地理、文学、医疗、社交媒体到金融、政治、环境等多个领域,旨在为研究者提供丰富的数据资源,以支持对伊朗社会、文化和经济的多维度分析。其创建时间虽未明确提及,但其广泛的分类和丰富的数据集表明,该资源库在近年来得到了持续的更新和扩展,对相关领域的研究具有重要的推动作用。
当前挑战
Awesome Iranian Datasets 面临的挑战主要集中在数据的质量和多样性上。首先,由于数据来源广泛,部分数据集可能存在标注不一致或缺失的问题,这为数据清洗和预处理带来了挑战。其次,波斯语作为一种非拉丁字母语言,其自然语言处理(NLP)技术相对滞后,尤其是在情感分析和文本分类等领域,模型的准确性和泛化能力仍需进一步提升。此外,数据集的多样性虽然丰富,但在某些特定领域(如环境数据或政治数据)可能存在数据量不足或更新不及时的问题,限制了相关研究的深入展开。
常用场景
经典使用场景
Awesome Iranian Datasets 提供了丰富的伊朗和波斯语数据集,涵盖了多个领域,如自然语言处理、地理信息、医疗健康、社交媒体等。其中,波斯语数据集尤为突出,包括波斯语词汇、短信、语音、手写文本等,这些数据集在语言模型训练、情感分析、语音识别等任务中具有广泛的应用。例如,波斯语短信数据集可用于垃圾短信检测,波斯语语音数据集则可用于语音合成和情感识别。
实际应用
在实际应用中,Awesome Iranian Datasets 的数据集被广泛应用于多个行业。例如,波斯语新闻数据集可用于新闻推荐系统,社交媒体数据集可用于舆情监控和情感分析。此外,地理信息数据集如伊朗城市和省份数据,为物流、旅游等行业提供了基础数据支持。金融领域的数据集如伊朗股市数据,则为投资者和分析师提供了重要的市场分析工具。
衍生相关工作
基于 Awesome Iranian Datasets,许多研究者和开发者开展了相关工作。例如,波斯语语音数据集被用于开发语音助手和语音识别系统,波斯语手写文本数据集则被用于手写体识别研究。此外,社交媒体数据集如伊朗抗议活动的推文数据,被用于社会运动分析和预测。这些衍生工作不仅丰富了数据集的应用场景,也为相关领域的技术进步提供了重要支持。
以上内容由遇见数据集搜集并总结生成



