ARLED

Name: ARLED
Creator: 马什哈德费尔多西大学计算机工程学院，马什哈德费尔多西大学经济与行政科学学院
Published: 2025-03-13 18:16:46
License: 暂无描述

arXiv2025-03-13 更新2025-03-18 收录

下载链接：

http://arxiv.org/abs/2503.10233v1

下载链接

链接失效反馈

官方服务：

资源简介：

ARLED数据集是由马什哈德费尔多西大学计算机工程学院和经济与行政科学学院的研究人员创建的，包含49,457篇完整的波斯语文档，这些文档是从Ensani网站抓取的。数据集在经过严格的预处理流程后，被上传至Zedfum存储库，并划分为训练集、验证集和测试集。该数据集旨在支持波斯语长文档的自动摘要研究，特别是用于训练ARMAN模型，该模型基于Longformer架构，能够处理长达数千个token的文档。

The ARLED dataset was created by researchers from the School of Computer Engineering and the School of Economic and Administrative Sciences at Ferdowsi University of Mashhad. It contains 49,457 complete Persian-language documents scraped from the Ensani website. After undergoing a rigorous preprocessing pipeline, the dataset was uploaded to the Zedfum repository and split into training, validation, and test sets. This dataset is designed to support research on automatic summarization of long Persian documents, particularly for training the ARMAN model, which is based on the Longformer architecture and can process documents with up to thousands of tokens.

提供机构：

马什哈德费尔多西大学计算机工程学院，马什哈德费尔多西大学经济与行政科学学院

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

ARLED数据集的构建过程始于从Ensani.ir网站进行并行爬取，耗时约三天，并使用了55核CPU和256GB内存的高性能计算资源。爬取的PDF文件通过Tesseract工具转换为文本格式，随后进行了一系列预处理步骤，包括阿拉伯字符到波斯字符的转换、非必要符号的去除、多余空格的合并、空行的删除以及短行的过滤。为确保数据集的纯净性，摘要和初始页面被移除，仅保留波斯语内容。最终，数据集被划分为训练集（90%）、验证集（5%）和测试集（5%），并上传至Zedfum平台，供后续研究使用。

特点

ARLED数据集包含300,000篇波斯语长文档，涵盖了从Ensani.ir网站获取的完整文章及其摘要。该数据集的特点在于其专注于波斯语长文本的抽象摘要任务，填补了波斯语长文本摘要数据集的空白。数据集的构建过程严格遵循了高质量标准，确保了文本的纯净性和一致性，使其成为波斯语自然语言处理研究的宝贵资源。此外，数据集的规模和处理方式使其特别适合用于训练和评估长文本摘要模型。

使用方法

ARLED数据集的使用方法主要围绕波斯语长文本的抽象摘要任务展开。研究人员可以利用该数据集训练基于Transformer架构的模型，如ARMAN和LED模型，以生成高质量的摘要。数据集的输入为长文本，输出为对应的摘要，通过Hugging Face的AutoTokenizer进行分词处理，最大输入长度为8192个token，最大输出长度为512个token。训练过程中，模型通过Seq2SeqLM方法进行优化，结合梯度检查点和Adafactor优化器，以提高训练效率和模型性能。最终生成的摘要可通过BERTScore等指标进行评估，确保其与参考摘要的相似性和信息完整性。

背景与挑战

背景概述

ARLED数据集由伊朗马什哈德费尔多西大学的Samira Zangooei等人于2021年提出，旨在解决波斯语长文档的抽象摘要生成问题。随着文本数据的快速增长，学者们面临着从大量研究文献中提取有用信息的挑战。传统的抽取式摘要方法虽然简单，但往往遗漏重要信息，而抽象式摘要则能够通过理解文本的深层含义生成更为连贯和内容丰富的摘要。ARLED数据集包含30万篇波斯语全文论文，来源于Ensani网站，并结合了基于Longformer架构的ARMAN模型，展示了在波斯语文本摘要任务中的显著性能。该数据集的推出填补了波斯语长文本摘要领域的空白，为自然语言处理研究提供了重要资源。

当前挑战

ARLED数据集在构建和应用过程中面临多重挑战。首先，波斯语作为一种资源相对匮乏的语言，缺乏专门针对长文本的摘要数据集，这限制了相关模型的研究与发展。其次，长文档的摘要生成本身具有复杂性，尤其是当文档长度超过1024个token时，传统的Transformer模型难以有效处理。尽管Longformer等模型通过线性扩展注意力机制部分解决了这一问题，但在非英语语言中的应用仍存在局限性。此外，数据集的构建过程涉及大量的计算资源与时间消耗，包括从Ensani网站爬取数据、PDF转文本、字符转换、符号清理等预处理步骤，这些步骤对数据质量的要求极高。最后，如何确保生成的摘要既准确又具有信息量，同时保持语言的流畅性，也是该数据集在实际应用中需要克服的关键挑战。

常用场景

经典使用场景

ARLED数据集在波斯语长文档的抽象摘要生成中展现了其经典应用场景。该数据集通过结合ARMAN和LED模型，能够有效地处理长达数千词的波斯语文档，生成简洁且信息丰富的摘要。这一应用场景特别适用于学术研究领域，帮助学者从大量文献中快速提取关键信息，节省阅读时间。

衍生相关工作

ARLED数据集的推出催生了一系列相关研究工作。基于该数据集，研究者们进一步优化了波斯语文本摘要生成模型，提出了多种改进算法。例如，一些研究结合了多任务学习机制，提升了模型在跨领域文本中的泛化能力；另一些研究则探索了基于强化学习的摘要生成方法，进一步提高了摘要的质量和相关性。这些衍生工作不仅推动了波斯语自然语言处理领域的发展，也为其他语言的文本摘要研究提供了借鉴。

数据集最近研究