Matina

Name: Matina
Creator: 塔比阿特莫达勒斯大学，德黑兰大学
Published: 2025-02-13 19:22:19
License: 暂无描述

arXiv2025-02-13 更新2025-02-15 收录

下载链接：

https://github.com/FTaheriN/Matina-Text-Preprocessing

下载链接

链接失效反馈

官方服务：

资源简介：

Matina是一个由塔比阿特莫达勒斯大学和德黑兰大学共同创建的大型波斯语文本语料库，包含72.9亿个tokens，经过精细的数据预处理和去重处理以确保高质量。该数据集整合了公开的波斯语数据集以及新收集的数据源，以确保内容的多样性和事实性信息的包含。Matina语料库旨在促进波斯语的自然语言处理，支持大型语言模型的预训练以及基于transformer架构的较小模型的发展，适用于文本分类、机器翻译、情感分析等多种NLP任务。

Matina is a large-scale Persian text corpus jointly developed by Tarbiat Modares University and University of Tehran, comprising 7.29 billion tokens. It has undergone rigorous data preprocessing and deduplication to ensure high data quality. This corpus integrates publicly available Persian datasets and newly collected data sources to guarantee content diversity and the inclusion of factual information. The Matina corpus aims to advance Persian natural language processing (NLP), support pre-training of large language models (LLMs) and the development of smaller models based on the Transformer architecture, and is applicable to various NLP tasks such as text classification, machine translation, and sentiment analysis.

提供机构：

塔比阿特莫达勒斯大学，德黑兰大学

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

Matina数据集的构建过程详尽而严谨，它由多个数据源组成，包括网络爬取数据、书籍和论文、以及社交媒体数据。这些数据源均经过精心的选择，以确保数据的多样性和质量。网络爬取数据来自多个领域，以避免广告和无关内容。书籍和论文数据则通过PDF转换和OCR技术进行处理，以确保内容的完整性和准确性。社交媒体数据则通过特定的过滤和去重步骤进行处理，以确保其质量和相关性。在整个构建过程中，Matina数据集采用了多阶段的数据处理流程，包括字符级、行和段落级、以及文档级处理。此外，还采用了MinHash算法进行去重，以消除冗余数据。通过这些方法，Matina数据集成功地构建了一个高质量、多样化的波斯语文本语料库。

特点

Matina数据集的特点在于其规模庞大、多样性丰富、质量高。该数据集包含72.9亿个波斯语标记，涵盖了网络、书籍、论文和社交媒体等多个领域。这使得Matina数据集成为波斯语自然语言处理（NLP）任务的一个宝贵资源。此外，Matina数据集还经过了严格的预处理和去重，以确保其质量。这使得该数据集不仅适用于训练大型语言模型，也适用于各种下游NLP任务，如文本分类、机器翻译和情感分析。Matina数据集的另一个特点是它公开了数据集和预处理代码，这使得研究人员可以在此基础上进行进一步的研究和改进。

使用方法

Matina数据集的使用方法包括数据加载、预处理和模型训练。首先，用户需要下载Matina数据集和预处理代码。然后，可以使用预处理代码对数据进行清洗和去重。接下来，用户可以使用清洗后的数据训练自己的模型。此外，Matina数据集还提供了一些预训练模型，如XML-RoBERTa和LLaMA 3.1，这些模型可以用于各种NLP任务。最后，用户还可以使用Matina数据集进行数据增强，以提高模型的性能。在使用Matina数据集时，用户需要注意一些事项，如敏感内容和语言的处理，以及数据集的版权问题。

背景与挑战

背景概述

自然语言处理（NLP）领域的飞速发展依赖于大规模文本语料库的训练。尽管在多种语言中已经收集了大量的单语和多语种数据集，但波斯语在NLP研究中的代表性相对较低，这主要是由于数据收集和预处理资源的有限。现有的波斯语数据集通常规模较小，内容多样性不足，主要由网络日志和新闻文章组成。这种高质量、多样化数据的缺乏，限制了波斯语NLP模型和开源大型语言模型（LLM）的发展。为了解决这个问题，研究人员Sara Bourbour Hosseinbeigi、Fatemeh Taherinezhad、Heshaam Faili、Hamed Baghbani、Fatemeh Nadi和Mostafa Amiri于2025年创建了一个名为Matina的波斯语数据集，包含72.9B个标记，经过精心预处理和去重，以确保数据的高质量。该数据集旨在支持波斯语NLP模型的预训练，并通过训练和评估基于transformer的模型在关键NLP任务上的性能来评估其有效性。

当前挑战

Matina数据集面临的挑战包括：1)波斯语在NLP研究中的代表性相对较低，现有的数据集规模较小，内容多样性不足；2)构建过程中遇到的挑战包括数据收集、预处理和去重。数据收集需要从多种来源收集数据，包括网络日志、新闻文章、书籍、学术论文和社交媒体，并进行筛选和清洗，以确保数据的质量和多样性。预处理包括字符级、行和段落级以及文档级处理，以去除HTML标签、JavaScript代码、非波斯语内容、特殊字符、短文本和重复内容等。去重是确保数据集质量的关键步骤，需要使用诸如MinHash算法等技术来识别和删除重复文档。此外，由于波斯语OCR系统的局限性，从图像PDF中提取文本时可能会引入错误，需要进行额外的过滤和处理。

常用场景

经典使用场景

Matina数据集为自然语言处理（NLP）领域提供了一个大规模的波斯语文本语料库，总计包含729亿个标记。该数据集经过精心预处理和去重，旨在解决波斯语NLP模型训练数据匮乏和质量不高的问题。Matina数据集的经典使用场景包括训练和评估基于Transformer的模型，如XML-RoBERTa，用于关键NLP任务，如情感分析、文本情绪检测和命名实体识别。此外，Matina数据集还被用于继续预训练大型语言模型（LLMs），如LLaMA 3.1，以提高波斯语文本理解能力。

衍生相关工作

Matina数据集的发布促进了波斯语NLP领域的进一步研究和发展。它为研究人员提供了高质量的数据集，用于训练和评估波斯语NLP模型，并推动了波斯语NLP模型性能的提升。此外，Matina数据集的公开可用性还促进了波斯语NLP研究的开放性和透明度，为研究人员和开发人员提供了一个宝贵的资源，可用于开发新的波斯语NLP应用和服务。

数据集最近研究