PersianNewsDataset, ThesisAbstractDataset

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/HamidHabibzadeh/KeyphraseExtractionDataset

下载链接

链接失效反馈

官方服务：

资源简介：

PersianNewsDataset包含1174篇完整的波斯语新闻，每篇新闻至少有四个由新闻作者标注的金标准关键词。该数据集从20,000篇跨多个主题的新闻中爬取生成，包含新闻标题、导语和新闻正文。ThesisAbstractDataset包含450篇来自Irandoc的人文主题论文摘要，每篇摘要至少包含四个金标准关键词。该数据集从12000篇论文中爬取生成。

The PersianNewsDataset comprises 1,174 complete Persian news articles, each annotated with at least four gold-standard keywords by the news authors. This dataset was generated by crawling 20,000 news articles across various topics, including news headlines, leads, and body texts. The ThesisAbstractDataset includes 450 thesis abstracts on humanities topics from Irandoc, each containing at least four gold-standard keywords. This dataset was created by crawling 12,000 theses.

创建时间：

2020-01-24

原始信息汇总

数据集概述

1. PersianNewsDataset

文档数量: 1147
平均文档长度: 350字
平均金标准关键词数量: 7个
平均金标准关键短语数量: 4.2个
关键短语在文本中的平均百分比: 93.6%
金标准关键短语中停用词的平均百分比: 24%
n-gram分布的平均百分比: 14/50/24/12
描述: 包含1174篇完整波斯语新闻内容，每篇至少有四个由新闻作者标注的金标准关键短语。数据集来自20,000篇多主题新闻。

2. ThesisAbstractDataset

文档数量: 450
平均文档长度: 323字
平均金标准关键词数量: 9个
平均金标准关键短语数量: 5个
关键短语在文本中的平均百分比: 80.3%
金标准关键短语中停用词的平均百分比: 15%
n-gram分布的平均百分比: 20/58/14/8
描述: 包含450篇来自Irandoc的人文主题论文摘要，每篇至少有四个金标准关键词。数据集来自12,000篇论文。

数据集评估

PersianNewsDataset

评估模型: KpMiner, Yake, TextRank, TopicRank, MultiPartitiRank
评估指标: P@5, R@5, F@5, P@10, R@10, F@10
最佳表现模型: KpMiner在P@5, R@5, F@5, P@10, R@10, F@10中表现最佳

ThesisAbstractDataset

评估模型: KpMiner, Yake, TextRank, TopicRank, MultiPartitiRank
评估指标: P@5, R@5, F@5, P@10, R@10, F@10
最佳表现模型: KpMiner在P@5, R@5, F@5, P@10, R@10, F@10中表现最佳

搜集汇总

数据集介绍

构建方式

该数据集通过从多个来源爬取新闻和论文摘要构建而成。PersianNewsDataset 包含1174篇波斯语新闻的全文，每篇新闻至少有四个由新闻作者标注的关键短语，这些数据来源于从20,000篇新闻中筛选出的多主题新闻。ThesisAbstractDataset 则包含450篇来自Irandoc的人文学科论文摘要，每篇摘要至少包含四个金标准关键词，这些数据是从12,000篇论文中筛选出来的。

使用方法

使用这些数据集时，可以利用pke工具包进行关键短语提取模型的训练和评估。该工具包支持多种关键短语提取算法，如KpMiner、Yake、TextRank等。为了处理波斯语文本，建议结合使用Parsivar和Hazm工具进行文本的规范化、分词、词干化和词性标注。此外，还可以使用kharazi的波斯语停用词列表来优化模型性能。

背景与挑战

背景概述

在自然语言处理领域，关键短语提取（Keyphrase Extraction）是一个重要的研究方向，旨在从文本中自动提取出最具代表性的短语。PersianNewsDataset和ThesisAbstractDataset是由研究人员提出的两个标注数据集，专门用于波斯语关键短语提取任务。PersianNewsDataset包含1174篇完整的波斯语新闻正文，每篇新闻至少有四个由新闻作者标注的金标准关键短语，这些数据来源于从多个主题中爬取的20,000篇新闻。ThesisAbstractDataset则包含450篇来自Irandoc（伊朗信息科学与技术研究所）的人文学科论文摘要，每篇摘要至少包含四个金标准关键短语，数据来源于12,000篇论文。这两个数据集的创建旨在推动波斯语关键短语提取技术的发展，并为相关研究提供高质量的基准数据。

当前挑战

尽管PersianNewsDataset和ThesisAbstractDataset为波斯语关键短语提取提供了宝贵的资源，但它们在构建和应用过程中仍面临诸多挑战。首先，波斯语作为一种形态丰富的语言，其语法结构复杂，词汇变化多样，这使得文本预处理（如分词、词干提取等）变得尤为困难。其次，波斯语的停用词列表和语言处理工具相对较少，研究人员在构建数据集时不得不依赖于Parsivar和Hazm等工具，这些工具的性能和兼容性对数据集的质量有直接影响。此外，关键短语提取模型在处理波斯语文本时，往往难以达到理想的准确率和召回率，尤其是在处理多词短语（n-gram）时，模型的表现显著下降。这些挑战不仅限制了数据集的应用效果，也对波斯语自然语言处理领域的进一步发展提出了更高的要求。

常用场景

经典使用场景

PersianNewsDataset和ThesisAbstractDataset主要用于自动关键词提取任务。这两个数据集分别包含了1174篇波斯语新闻和450篇人文社科领域的论文摘要，每篇文档均附有至少四个由作者标注的金标准关键词。这些数据集的经典使用场景包括关键词提取模型的训练与评估，特别是在波斯语语境下的关键词识别与提取，为自然语言处理领域的研究提供了宝贵的资源。

解决学术问题

这两个数据集解决了波斯语自动关键词提取中的关键学术问题，如关键词识别的准确性、多词表达的提取效率以及跨领域关键词的一致性。通过提供高质量的标注数据，这些数据集为研究者提供了评估和改进关键词提取算法的基准，推动了波斯语自然语言处理技术的发展，具有重要的学术意义和影响力。

实际应用

在实际应用中，PersianNewsDataset和ThesisAbstractDataset可用于新闻摘要生成、学术文献检索系统优化以及内容推荐系统。例如，新闻机构可以利用这些数据集训练模型，自动生成新闻摘要并提取关键信息，提升新闻传播效率。学术界则可以利用这些数据集改进文献检索系统，提高检索结果的相关性和准确性。

数据集最近研究