Corpesia, Pairsia-sup, Pairsia-unsup

Name: Corpesia, Pairsia-sup, Pairsia-unsup
Creator: MCINEXT, Sharif University of Technology
Published: 2025-05-13 18:57:32
License: 暂无描述

arXiv2025-05-13 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.08435v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了三个新的数据集：Corpesia、Pairsia-sup和Pairsia-unsup，这些数据集旨在支持监督和无监督的训练场景。Corpesia数据集包含来自46个网站、21个广泛主题的文本，包含超过110亿个tokens。Pairsia-unsup数据集包含50万个文本对，经过过滤后精简为500万个高质量对。Pairsia-sup数据集包含130万个监督实例，旨在支持多样化的NLP任务。这些数据集的创建是为了训练一种新的波斯文本嵌入模型Hakim，该模型在FaMTEB基准测试中取得了显著的性能提升，特别是在聊天机器人和检索增强生成(RAG)系统中表现突出。

This paper introduces three novel datasets: Corpesia, Pairsia-sup, and Pairsia-unsup, which are designed to support both supervised and unsupervised training scenarios. The Corpesia dataset comprises texts from 46 websites across 21 broad topics, with a total of over 11 billion tokens. The Pairsia-unsup dataset contains 500,000 text pairs, which are filtered and refined into 5 million high-quality pairs. The Pairsia-sup dataset includes 1.3 million supervised instances, intended to support a diverse array of NLP tasks. These datasets were developed to train a novel Persian text embedding model named Hakim, which has achieved significant performance improvements on the FaMTEB benchmark, particularly excelling in chatbots and Retrieval-Augmented Generation (RAG) systems.

提供机构：

MCINEXT, Sharif University of Technology

创建时间：

2025-05-13

搜集汇总

数据集介绍

构建方式

在波斯语文本嵌入研究领域，Corpesia、Pairsia-sup和Pairsia-unsup数据集的构建采用了多源异构数据融合策略。Corpesia通过爬取46个伊朗网站的21类主题内容（如新闻、科技、经济），经Selectolax解析器清洗广告和模板文本后，采用动态段落合并算法生成11亿 tokens的语料库。Pairsia-unsup从网页标题-文档、FAQ问答等结构化数据出发，通过BGE-M3嵌入模型进行语义相似度阈值过滤，将初始5000万对数据精炼为500万高质量文本对。Pairsia-sup则基于FaMTEB基准任务需求，构建130万监督样本并创新性地引入九重负采样机制（含同数据集硬负例、跨数据集硬负例和随机负例），通过指令模板将分类、检索等任务统一为文本对关系建模。

使用方法

该数据集支持端到端的波斯语嵌入模型训练流程：Corpesia作为基础预训练语料，可采用RetroMAE-v2的复现掩码策略优化[CLS]表征；Pairsia-unsup适用于对比学习阶段，通过InfoNCE损失函数构建通用语义空间；Pairsia-sup则用于指令微调，其创新的'交叉分类'范式可将STS等任务转化为指令驱动的文本对分类问题。实际应用中，开发者可加载预训练权重后，根据下游任务选择对应子集——如聊天机器人场景优先采用含对话历史的RAG专用数据，跨域检索任务则调用经过硬负例增强的监督数据集。数据集与HuggingFace生态兼容，支持动态批处理与混合精度训练。

背景与挑战

背景概述

Corpesia、Pairsia-sup和Pairsia-unsup数据集由Sharif University of Technology的研究团队于2025年提出，旨在解决波斯语在文本嵌入研究中的代表性不足问题。这些数据集支持波斯语文本嵌入模型的监督和非监督训练，涵盖了新闻、经济、科技等多个领域的波斯语文本。Corpesia包含来自46个网站的110亿标记，Pairsia-unsup包含500万高质量文本对，Pairsia-sup则包含130万监督实例。这些数据集为波斯语自然语言处理（NLP）任务提供了丰富的资源，显著提升了波斯语文本嵌入模型的性能。

当前挑战

构建Corpesia、Pairsia-sup和Pairsia-unsup数据集面临多重挑战。首先，波斯语作为低资源语言，高质量标注数据的稀缺性使得数据收集和清洗过程复杂化。其次，数据集的多样性要求覆盖多个领域和任务，这对数据平衡和噪声过滤提出了严格要求。此外，监督训练中负样本的生成和难样本挖掘需要精细设计，以确保模型训练的鲁棒性。最后，跨语言数据（如机器翻译的文本对）的引入需解决语义一致性和文化适应性等问题。这些挑战在数据集的构建和模型训练中均需细致处理。

常用场景

经典使用场景

在波斯语自然语言处理领域，Corpesia、Pairsia-sup和Pairsia-unsup数据集为文本嵌入模型的训练提供了全面的支持。这些数据集广泛应用于监督和非监督学习场景，特别是在语义相似性计算、文本分类和信息检索等任务中。通过结合这些数据集，研究者能够构建高质量的波斯语文本表示模型，显著提升模型在复杂语言任务中的表现。

解决学术问题

这些数据集有效解决了波斯语在文本嵌入研究中代表性不足的问题。通过提供大规模、多样化的语料库，它们填补了波斯语高质量训练数据的空白，支持了语义关系建模和跨任务泛化能力的提升。特别是在低资源语言环境下，这些数据集为开发高性能的波斯语NLP模型奠定了坚实基础，推动了该领域的技术进步。

实际应用

在实际应用中，这些数据集支撑的模型被广泛应用于聊天机器人、检索增强生成系统（RAG）等场景。例如，在对话系统中，模型能够准确理解用户查询的上下文语义，提供更精准的响应。此外，在信息检索领域，基于这些数据集训练的模型显著提升了波斯语文档的检索效率和准确性。

数据集最近研究