PersianStemmingDataset

github2024-02-16 更新2024-05-31 收录

下载链接：

https://github.com/htaghizadeh/PersianStemmingDataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于评估新词干提取器的波斯语词干提取数据集，包含从PerTreeBank和Persian Dependency TreeBank两个手动词干提取语料库中自动提取的单词及其词干。第一个数据集包含4,689个不同的单词，第二个数据集包含26,913个不同的单词，两者在词性标签的多样性方面具有良好的质量。

A Persian stemming dataset for evaluating new stemmers, containing words and their stems automatically extracted from two manually stemmed corpora: PerTreeBank and Persian Dependency TreeBank. The first dataset comprises 4,689 distinct words, while the second includes 26,913 distinct words, both exhibiting high quality in terms of the diversity of part-of-speech tags.

创建时间：

2016-11-30

原始信息汇总

PersianStemmingDataset 概述

数据集描述

来源与组成：该数据集用于评估波斯语词干提取算法的正确性。数据集包含两个部分，均从手动词干提取的语料库中自动提取：
- 第一部分：来自 PerTreeBank 语料库，包含 4,689 个不同的单词及其词干。
- 第二部分：来自 Persian Dependency TreeBank 语料库，包含 26,913 个不同的单词及其词干。
特点：这两个数据集在词性标签的多样性方面质量良好。

使用方法

数据结构：每个词干提取数据集包含三个列，分别是变形词、词干和词性。用户需将自己的词干添加到第四列。
评估工具：使用 Evaluate.exe 工具进行评估，该工具支持多种评估指标，如准确率、精确率、召回率、F-Measure、过度提取和提取不足错误、委托和遗漏错误。
命令行使用： batch Evaluate.exe "{your stemmed file path}" 1 3 {evaluation output file name}

数据集参考

PerTreeBank 语料库：Ghayoomi, M. (2012) Bootstrapping the Development of an HPSG-based Treebank for Persian. Linguistic Issues in Language Technology, 7.
Persian Dependency TreeBank 语料库：Rasooli, M. S., Moloodi, A., Kouhestani, M., and Minaei-Bidgoli, B. (2011) A syntactic valency lexicon for Persian verbs : The first steps towards Persian dependency treebank. 5th Language & Technology Conference (LTC) : Human Language Technologies as a Challenge for Computer Science and Linguistics, pp. 227–231.

搜集汇总

数据集介绍

构建方式

在波斯语词干提取算法的正确性评估领域，缺乏标准数据集的问题一直存在。为解决这一问题，PersianStemmingDataset通过从两个手动标注的语料库中自动提取数据构建而成。第一个数据集源自PerTreeBank语料库，包含4,689个独特单词及其词干；第二个数据集则基于波斯语依存树库语料库，涵盖26,913个独特单词及其词干。这两个数据集在词性标签的多样性方面表现出色，为词干提取算法的评估提供了坚实的基础。

特点

PersianStemmingDataset以其丰富的数据量和多样化的词性标签著称。数据集不仅包含了大量波斯语单词及其对应的词干，还详细标注了每个单词的词性信息，为词干提取算法的全面评估提供了多维度的参考。此外，数据集的构建基于两个高质量的语料库，确保了数据的准确性和代表性，使其成为波斯语自然语言处理研究中的重要资源。

使用方法

使用PersianStemmingDataset进行词干提取算法的评估，用户需准备一个包含三列数据的文件，分别为变形词、词干和词性。用户需将提取的词干添加至第四列，随后通过命令行工具`evaluate.exe`执行评估。该工具支持多种评估指标，如准确率、精确率、召回率、F值等，并生成详细的评估报告，帮助用户全面了解算法的性能表现。

背景与挑战

背景概述

波斯语词干提取是自然语言处理领域中的一个重要研究方向，尤其在波斯语文本处理中具有关键作用。PersianStemmingDataset的创建旨在填补波斯语词干提取算法评估标准数据集的空白。该数据集由两个手动标注的语料库自动提取而成，分别是PerTreeBank语料库和波斯依存树库语料库。PerTreeBank语料库包含4,689个独特词汇，而波斯依存树库语料库则包含26,913个独特词汇。这些数据集在词性标注的多样性方面表现出色，为波斯语词干提取算法的评估提供了坚实的基础。该数据集的创建时间为2012年，主要研究人员包括Ghayoomi和Rasooli等，他们的研究为波斯语自然语言处理领域的发展做出了重要贡献。

当前挑战

PersianStemmingDataset在解决波斯语词干提取算法的评估问题时，面临诸多挑战。波斯语作为一种形态丰富的语言，其词干提取过程复杂，涉及大量词形变化和词缀处理。数据集的构建过程中，研究人员需要确保词汇和词干的准确对应，同时兼顾词性标注的多样性，这对标注质量和语料库的选择提出了较高要求。此外，波斯语词干提取算法的评估标准尚未统一，如何设计全面且有效的评估指标也是一个重要挑战。数据集的自动提取过程虽然提高了效率，但也可能引入误差，影响评估结果的准确性。因此，如何进一步提升数据集的质量和评估方法的科学性，仍是未来研究的重要方向。

常用场景

经典使用场景

PersianStemmingDataset在波斯语自然语言处理领域中被广泛用于评估和比较不同的词干提取算法。通过提供大量经过手动标注的词汇及其词干，该数据集为研究人员提供了一个标准化的测试平台，使得他们能够准确地衡量算法的性能。数据集中的词汇涵盖了丰富的词性标签，确保了评估的全面性和准确性。

衍生相关工作

PersianStemmingDataset的发布催生了一系列与波斯语词干提取相关的研究工作。许多学者基于该数据集提出了新的词干提取算法，并通过与现有方法的对比，展示了其优越性。此外，该数据集还被用于开发更复杂的自然语言处理工具，如波斯语依存句法分析器和语义角色标注系统，进一步推动了波斯语自然语言处理领域的发展。

数据集最近研究