L3Cube-MahaParaphrase

Name: L3Cube-MahaParaphrase
Creator: L3Cube Labs
Published: 2025-08-25 00:48:58
License: 暂无描述

arXiv2025-08-25 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/l3cube-pune/MahaParaphrase

下载链接

链接失效反馈

官方服务：

资源简介：

L3Cube-MahaParaphrase数据集是一个高质量的马拉地语释义检测语料库，由L3Cube Labs创建，包含8000个句子对，每个句子对都由人类专家标注为释义(P)或非释义(NP)。数据集的内容来自MahaCorpus，涵盖了广泛的主题，包括新闻、情感和仇恨言论。数据集的创建过程分为三个阶段：从MahaCorpus收集句子，使用余弦相似度和回译方法对句子进行分类，然后由四位马拉地语母语者进行人工验证。最后，根据词重叠程度将句子分为五个桶。数据集的应用领域包括问答、风格转换、语义解析和数据增强等自然语言处理任务。

The L3Cube-MahaParaphrase dataset is a high-quality Marathi paraphrase detection corpus developed by L3Cube Labs. It comprises 8,000 sentence pairs, each annotated by human experts as either paraphrases (P) or non-paraphrases (NP). The corpus is sourced from MahaCorpus, covering a broad spectrum of topics including news, sentiment analysis, and hate speech. The dataset construction workflow involves three stages: first, extracting sentence pairs from MahaCorpus; second, classifying the pairs via cosine similarity and back-translation methods; third, conducting manual validation by four native Marathi speakers. Subsequently, the sentence pairs are divided into five buckets based on their word overlap degree. This dataset supports multiple natural language processing (NLP) tasks, including question answering, style transfer, semantic parsing, and data augmentation.

提供机构：

L3Cube Labs

创建时间：

2025-08-25

原始信息汇总

L3Cube-MahaParaphrase 数据集概述

数据集简介

L3Cube-MahaParaphrase 数据集是一个马拉地语复述检测语料库。这是一个高质量、人工标注的语料库，专门为马拉地语（一种低资源印度语言）设计。数据集包含 8,000 个句子对，标记为复述（P）或非复述（NP）。

语言信息

主要语言：马拉地语（低资源印度语言）

数据集规模

句子对数量：8,000
- 复述（P）：4,000 对
- 非复述（NP）：4,000 对

标注信息

数据集中的每个句子对都由人类专家手动标注。标签包括：

复述（P）：用不同措辞表达相同含义的句子
非复述（NP）：不表达相同含义的句子

预期用途

该数据集适用于以下自然语言处理任务的训练和评估：

复述检测
文本相似性
低资源语言的数据增强
印度语言的迁移学习

模型基准

已在此数据集上评估了基于标准 Transformer 的模型（如 BERT），为未来研究提供了性能基线。

引用信息

使用本数据集时，请引用以下原始工作：

@article{joshi2022l3cube, title={L3cube-mahanlp: Marathi natural language processing datasets, models, and library}, author={Joshi, Raviraj}, journal={arXiv preprint arXiv:2205.14728}, year={2022} }

许可信息

许可证：CC-BY-4.0

标签信息

paraphrase detection
Marathi NLP
Marathi paraphrase

数据集特征

名称：MahaParaphrase
规模分类：1K<n<10K

搜集汇总

数据集介绍

构建方式

在马拉提语这一低资源印度语言的自然语言处理研究中，L3Cube-MahaParaphrase数据集的构建采用了多阶段科学流程。首先从涵盖新闻、情感分析等多领域的MahaCorpus中随机选取100万句子作为基础语料，随后通过余弦相似度计算与回译技术双路径生成候选句对：前者利用MahaSBERT句子编码器计算语义相似度，以0.8-0.99阈值筛选复述对；后者通过英-马拉提语双向翻译生成合成复述，并采用相同相似度阈值过滤无效样本。最终由四位母语专家对全部8000句对进行人工校验，确保标注准确性。

特点

该数据集的核心特征体现在其精细的结构设计与语言多样性。作为首个包含复述与非复述双类别标注的马拉提语语料库，其8000个句对均等分为Paraphrase与Nonparaphrase两类。创新性地依据词汇重叠率将数据划分为五个层级桶（0-20%至80-100%），有效捕捉从完全同义到高度异质的语义光谱。语料来源覆盖新闻、社论、日常对话等多领域，充分体现马拉提语的形态复杂性与方言变体特征，为研究词汇重叠与语义关联的非线性关系提供理想实验基础。

使用方法

该数据集专为复述检测任务设计，支持基于Transformer架构的模型训练与评估。研究者可借助其分层结构开展细粒度实验：既可进行整体二分类任务训练，也可针对特定重叠率桶分析模型性能差异。基准实验表明，MahaBERT在此数据集上达到88.7%的F1值，证实其作为评估指标的可靠性。数据集兼容主流的HuggingFace框架，提供标准化的训练/验证/测试分割，支持跨模型对比研究，包括mBERT、IndicBERT等多语言模型在低资源场景下的迁移学习性能验证。

背景与挑战

背景概述

自然语言处理领域长期面临低资源语言数据匮乏的挑战，特别是在形态复杂、语法多变的印度语系中。2025年由L3Cube实验室联合浦那计算机技术研究所、印度理工学院马德拉斯分校等机构共同发布的L3Cube-MahaParaphrase数据集，填补了马拉地语在复述检测任务上的空白。该数据集包含8,000对人工标注的复述与非复述句子对，通过严格的专家验证流程确保数据质量，为低资源语言的语义理解研究提供了重要基准。

当前挑战

该数据集主要应对马拉地语复述检测的双重挑战：语言层面上面临形态复杂性和方言多样性导致的语义歧义问题，技术层面需解决低资源语言标注数据稀缺与自动生成质量不足的困境。构建过程中需克服传统相似度计算方法对低重叠度高语义相似句对的识别局限，同时通过回译技术与人工校验相结合的方式确保合成数据的语义一致性，最终实现真实数据与合成数据的平衡配置。

常用场景

经典使用场景

在自然语言处理领域，L3Cube-MahaParaphrase数据集为马拉地语文本语义等价性研究提供了基准平台。该数据集通过人工标注的8000个句子对，支持研究者开发精准的释义检测模型，特别是在处理低资源语言复杂的形态变化和句法结构时展现其价值。模型训练过程中，研究者常利用其分桶结构验证不同词汇重叠度下的语义一致性判断能力。

衍生相关工作

基于该数据集衍生的MahaParaphrase-BERT成为马拉地语语义理解的新基线模型，启发了后续多项跨语言释义研究。相关团队进一步开发了融合对比学习的IndicSBERT架构，提升了南亚语言间的语义对齐效果。这些工作共同推动了AI4Bharat等区域性NLP项目的发展，促使研究者构建更全面的印度语言释义检测评估体系。

数据集最近研究