ARPA: Armenian Paraphrase Detection Corpus

github2023-12-26 更新2024-05-31 收录

下载链接：

https://github.com/ivannikov-lab/arpa-paraphrase-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Hetq和Panarmenian新闻文章中提取的句子，通过从亚美尼亚语到英语的反向翻译生成释义。生成的释义经过两次反向翻译后进行人工审查，无效句子被过滤，其余句子被标记为释义、近释义或非释义。数据集分为训练集和测试集，测试样本由3位不同的注释者审查。此外，为了增加非释义对的数量，数据集还添加了自动生成的负例，包括连续句子和随机对。

This dataset comprises sentences extracted from Hetq and Panarmenian news articles, with paraphrases generated through back-translation from Armenian to English. The generated paraphrases underwent two rounds of back-translation followed by manual review, during which invalid sentences were filtered out, and the remaining sentences were labeled as paraphrases, near-paraphrases, or non-paraphrases. The dataset is divided into training and test sets, with test samples reviewed by three different annotators. Additionally, to increase the number of non-paraphrase pairs, the dataset includes automatically generated negative examples, consisting of consecutive sentences and random pairs.

创建时间：

2020-09-27

原始信息汇总

ARPA: Armenian Paraphrase Detection Corpus and Models

数据集概述

来源：数据集中的句子来源于Hetq和Panarmenian新闻文章。
生成方法：使用从亚美尼亚语到英语的反向翻译生成句子释义，经过两次反向翻译后，进行人工审核，过滤无效句子，并标记为释义、近释义或非释义（分别用1, 0, -1标签表示）。
数据划分：数据集分为训练集和测试集，测试集由3名不同标注者审核。
额外扩充：为增加非释义对的数量，数据集通过添加连续句子和随机对来自动生成负例。

数据集统计

类别	总数	释义	非释义（近释义）
训练集	4233	1339	2684 (210)
测试集	1682	1021	449 (212)

模型评估

训练集：使用多语言BERT在多个训练集上进行微调，包括ARPA数据集。
评估指标：在测试集上评估F1分数和准确率，近释义和非释义对合并为一类。

模型	训练集	F1	准确率
多语言BERT	ARPA训练集	84.27	78.06
多语言BERT	Paraphraser.ru训练集机器翻译成亚美尼亚语	83.81	77.09
多语言BERT	MRPC训练集机器翻译成亚美尼亚语	80.07	69.87
多语言BERT	上述所有训练集合并	84	77.6

模型可用性

模型下载：训练于ARPA数据集的模型可通过此链接下载。

搜集汇总

数据集介绍

构建方式

ARPA数据集的构建过程体现了对亚美尼亚语复述检测任务的高度关注。数据集中的句子主要来源于Hetq和Panarmenian新闻文章，通过从亚美尼亚语到英语的回译技术生成复述句子。生成过程经过两次回译，随后由人工审核，剔除无效句子，并将有效句子标注为复述、近似复述或非复述三类。为了增加非复述对的数量，数据集还通过自动生成负例进行了扩充，包括连续句子对和随机句子对。最终，数据集被划分为训练集和测试集，测试集由三位不同的注释者进行审核。

特点

ARPA数据集的特点在于其专注于亚美尼亚语的复述检测任务，涵盖了丰富的复述和非复述对。数据集包含4233个训练样本和1682个测试样本，其中复述对和近似复述对的比例经过精心设计，确保了数据的多样性和平衡性。此外，数据集还提供了基于Multilingual BERT的预训练模型，这些模型在多个训练集上进行了微调，并在ARPA测试集上表现出色，F1分数和准确率均达到了较高水平。

使用方法

ARPA数据集的使用方法较为直观，用户可以直接下载数据集和预训练模型进行复述检测任务。数据集中的句子对已标注为复述、近似复述或非复述，用户可以根据需求选择相应的类别进行训练和测试。预训练模型基于Multilingual BERT，用户可以通过微调这些模型来适应特定的任务需求。此外，数据集的构建方法和模型性能已在相关论文中详细描述，用户可以参考论文以获取更多技术细节。

背景与挑战

背景概述

ARPA: Armenian Paraphrase Detection Corpus 是一个专门针对亚美尼亚语设计的句子级复述检测数据集，旨在推动自然语言处理领域中对低资源语言的研究。该数据集由研究人员从Hetq和Panarmenian新闻文章中提取句子，并通过回译技术生成复述句子，最终经过人工审核和标注。数据集创建于2020年，主要研究人员通过多语言BERT模型在ARPA数据集上进行微调，展示了其在复述检测任务中的潜力。ARPA数据集的发布填补了亚美尼亚语在复述检测领域的空白，为低资源语言的NLP研究提供了重要支持。

当前挑战

ARPA数据集的研究挑战主要集中在两个方面。首先，复述检测任务本身具有较高的复杂性，尤其是在低资源语言中，语义相似性和语言表达的多样性使得模型难以准确区分复述与非复述。其次，数据集的构建过程面临技术难题，例如回译技术生成的复述句子可能存在语义偏差，需通过人工审核进行修正。此外，为了平衡数据集，研究人员还需通过自动生成负例来增加非复述对的数量，这一过程可能引入噪声，影响模型的训练效果。这些挑战要求研究人员在模型设计和数据处理中采取更为精细的策略。

常用场景

经典使用场景

ARPA数据集主要用于亚美尼亚语的句子级复述检测任务。该数据集通过从Hetq和Panarmenian新闻文章中提取句子，并利用回译技术生成复述句子，经过人工审核后标注为复述、近似复述或非复述。这一数据集为亚美尼亚语的自然语言处理研究提供了宝贵的资源，尤其是在复述检测和文本相似度分析领域。

衍生相关工作

基于ARPA数据集，研究人员开发了多种复述检测模型，特别是基于多语言BERT的模型。这些模型不仅在亚美尼亚语复述检测任务中表现出色，还为其他低资源语言的复述检测研究提供了参考。此外，该数据集还促进了跨语言复述检测技术的发展，推动了多语言自然语言处理领域的进步。

数据集最近研究