five

persian-dataset

收藏
github2023-12-25 更新2024-05-31 收录
下载链接:
https://github.com/mohammadiahmad/persian-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过爬取Young Journalist Club网站收集的,包含9个类别的新闻数据,每个类别对应一个文件,文件中每行包含一条新闻的详细信息,如文本、类别、日期等。

This dataset was collected by crawling the Young Journalist Club website, containing news data across 9 categories. Each category corresponds to a separate file, with each line in the file detailing information about a single news item, such as text, category, date, etc.
创建时间:
2019-02-28
原始信息汇总

波斯语数据集概述

数据集来源

  • 数据集通过爬取Young Journalist Club网站(https://www.yjc.ir/)收集。

数据集分类

  • 数据集包含以下9个类别:
    1. 艺术文化
    2. 通信
    3. 技术
    4. 经济
    5. 国际政治
    6. 政治
    7. 科学与医学
    8. 社会
    9. 体育

数据存储格式

  • 每个类别的数据存储在与其类别名称对应的文件中。
  • 每个文件的每一行包含一条新闻的信息,如文本、类别、日期等。

数据结构

  • 每条新闻的数据格式如下: json { "link": "新闻链接", "title": "新闻标题", "code_news": "新闻代码", "category": "新闻类别", "date": "发布日期", "text": "新闻文本" }

下载链接

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过爬取Young Journalist Club网站(https://www.yjc.ir/)的内容构建而成,涵盖了艺术文化、通信、技术、经济、国际政治、政治、科学与医学、社会以及体育等九大类别。每个类别的数据存储在与类别名称对应的文件中,每条新闻以JSON格式记录,包含链接、标题、新闻代码、类别、发布日期及正文等信息。
使用方法
使用该数据集时,用户可通过下载提供的压缩文件获取所有类别的新闻数据。每条新闻以JSON格式存储,用户可根据需求解析特定字段,如文本、类别或日期,进行进一步的分析或模型训练。该数据集特别适合用于波斯语文本分类任务,研究人员可通过构建分类模型,探索不同类别新闻的特征及其分类效果。
背景与挑战
背景概述
Persian-dataset是一个专注于波斯语文本分类的数据集,由Young Journalist Club网站(https://www.yjc.ir/)爬取而来。该数据集涵盖了9个主要类别,包括艺术文化、通信、技术、经济、国际政治、政治、科学与医学、社会和体育。每个类别的数据存储在与类别名称对应的文件中,每条新闻包含链接、标题、新闻代码、类别、日期和文本等信息。该数据集的创建旨在为波斯语自然语言处理(NLP)任务提供丰富的文本资源,特别是在新闻分类领域。通过提供多样化的新闻文本,该数据集为研究者提供了探索波斯语文本分类、情感分析和信息提取等任务的宝贵机会。
当前挑战
Persian-dataset面临的挑战主要集中在两个方面。首先,波斯语作为一种形态丰富且语法复杂的语言,其文本分类任务本身具有较高的难度。波斯语的词形变化、词序灵活性以及缺乏标准化的分词工具,使得文本预处理和特征提取变得复杂。其次,数据集的构建过程中也面临诸多挑战。由于新闻文本的多样性和动态性,确保数据的时效性和代表性是一个重要问题。此外,从网页爬取的数据可能包含噪声,如HTML标签、广告内容等,这需要大量的清洗和预处理工作。最后,数据集的类别分布可能不均衡,某些类别的样本数量较少,这可能影响分类模型的性能。
常用场景
经典使用场景
在波斯语自然语言处理领域,persian-dataset被广泛应用于文本分类任务。该数据集通过爬取Young Journalist Club网站,涵盖了艺术文化、通信、技术、经济、国际政治、政治、科学医学、社会和体育等九大类别,为研究者提供了丰富的波斯语文本资源。其结构化的JSON格式使得数据易于处理和分析,特别适合用于训练和评估文本分类模型。
解决学术问题
persian-dataset有效解决了波斯语文本分类研究中数据稀缺的问题。通过提供大量标注好的新闻文本,研究者能够更准确地训练分类模型,提升模型在波斯语环境下的表现。此外,该数据集的多类别设计为跨领域文本分类研究提供了基础,推动了波斯语自然语言处理技术的发展。
实际应用
在实际应用中,persian-dataset被广泛用于新闻推荐系统、舆情分析和内容过滤等领域。通过利用该数据集训练的模型,新闻平台能够自动分类和推荐相关新闻,提升用户体验。同时,政府和企业在舆情监控中也能借助该数据集,快速识别和分析特定类别的新闻内容,辅助决策制定。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,波斯语文本分类成为了一个备受关注的研究领域。persian-dataset作为一个涵盖艺术文化、通信、技术、经济、国际政治、政治、科学与医学、社会及体育等多个类别的波斯语新闻数据集,为研究者提供了丰富的语料资源。该数据集不仅支持传统的文本分类任务,还为情感分析、事件检测及跨语言迁移学习等前沿研究方向提供了数据基础。特别是在波斯语这一低资源语言环境下,persian-dataset的发布填补了数据空白,推动了波斯语自然语言处理技术的发展。其多类别结构和详细的新闻信息格式,使得该数据集在新闻推荐系统、舆情分析及多模态学习等热点领域具有广泛的应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作