persian-dataset

github2023-12-25 更新2024-05-31 收录

下载链接：

https://github.com/mohammadiahmad/persian-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过爬取Young Journalist Club网站收集的，包含9个类别的新闻数据，每个类别对应一个文件，文件中每行包含一条新闻的详细信息，如文本、类别、日期等。

This dataset was collected by crawling the Young Journalist Club website, containing news data across 9 categories. Each category corresponds to a separate file, with each line in the file detailing information about a single news item, such as text, category, date, etc.

创建时间：

2019-02-28

原始信息汇总

波斯语数据集概述

数据集来源

数据集通过爬取Young Journalist Club网站（https://www.yjc.ir/）收集。

数据集分类

数据集包含以下9个类别：
1. 艺术文化
2. 通信
3. 技术
4. 经济
5. 国际政治
6. 政治
7. 科学与医学
8. 社会
9. 体育

数据存储格式

每个类别的数据存储在与其类别名称对应的文件中。
每个文件的每一行包含一条新闻的信息，如文本、类别、日期等。

数据结构

每条新闻的数据格式如下： json { "link": "新闻链接", "title": "新闻标题", "code_news": "新闻代码", "category": "新闻类别", "date": "发布日期", "text": "新闻文本" }

下载链接

数据集下载链接：https://www.dropbox.com/s/084prex1jfu5u1n/yjc_news.tar.gz?dl=0

搜集汇总

数据集介绍

构建方式

该数据集通过爬取Young Journalist Club网站（https://www.yjc.ir/）的内容构建而成，涵盖了艺术文化、通信、技术、经济、国际政治、政治、科学与医学、社会以及体育等九大类别。每个类别的数据存储在与类别名称对应的文件中，每条新闻以JSON格式记录，包含链接、标题、新闻代码、类别、发布日期及正文等信息。

使用方法

使用该数据集时，用户可通过下载提供的压缩文件获取所有类别的新闻数据。每条新闻以JSON格式存储，用户可根据需求解析特定字段，如文本、类别或日期，进行进一步的分析或模型训练。该数据集特别适合用于波斯语文本分类任务，研究人员可通过构建分类模型，探索不同类别新闻的特征及其分类效果。

背景与挑战

背景概述

Persian-dataset是一个专注于波斯语文本分类的数据集，由Young Journalist Club网站（https://www.yjc.ir/）爬取而来。该数据集涵盖了9个主要类别，包括艺术文化、通信、技术、经济、国际政治、政治、科学与医学、社会和体育。每个类别的数据存储在与类别名称对应的文件中，每条新闻包含链接、标题、新闻代码、类别、日期和文本等信息。该数据集的创建旨在为波斯语自然语言处理（NLP）任务提供丰富的文本资源，特别是在新闻分类领域。通过提供多样化的新闻文本，该数据集为研究者提供了探索波斯语文本分类、情感分析和信息提取等任务的宝贵机会。

当前挑战

Persian-dataset面临的挑战主要集中在两个方面。首先，波斯语作为一种形态丰富且语法复杂的语言，其文本分类任务本身具有较高的难度。波斯语的词形变化、词序灵活性以及缺乏标准化的分词工具，使得文本预处理和特征提取变得复杂。其次，数据集的构建过程中也面临诸多挑战。由于新闻文本的多样性和动态性，确保数据的时效性和代表性是一个重要问题。此外，从网页爬取的数据可能包含噪声，如HTML标签、广告内容等，这需要大量的清洗和预处理工作。最后，数据集的类别分布可能不均衡，某些类别的样本数量较少，这可能影响分类模型的性能。

常用场景

经典使用场景

在波斯语自然语言处理领域，persian-dataset被广泛应用于文本分类任务。该数据集通过爬取Young Journalist Club网站，涵盖了艺术文化、通信、技术、经济、国际政治、政治、科学医学、社会和体育等九大类别，为研究者提供了丰富的波斯语文本资源。其结构化的JSON格式使得数据易于处理和分析，特别适合用于训练和评估文本分类模型。

解决学术问题

persian-dataset有效解决了波斯语文本分类研究中数据稀缺的问题。通过提供大量标注好的新闻文本，研究者能够更准确地训练分类模型，提升模型在波斯语环境下的表现。此外，该数据集的多类别设计为跨领域文本分类研究提供了基础，推动了波斯语自然语言处理技术的发展。

实际应用

在实际应用中，persian-dataset被广泛用于新闻推荐系统、舆情分析和内容过滤等领域。通过利用该数据集训练的模型，新闻平台能够自动分类和推荐相关新闻，提升用户体验。同时，政府和企业在舆情监控中也能借助该数据集，快速识别和分析特定类别的新闻内容，辅助决策制定。

数据集最近研究