Karavet/ARPA-Armenian-Paraphrase-Corpus

Name: Karavet/ARPA-Armenian-Paraphrase-Corpus
Creator: Karavet
Published: 2022-10-21 16:04:07
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Karavet/ARPA-Armenian-Paraphrase-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了亚美尼亚语的句子复述检测训练集和测试集，以及基于BERT的模型。数据集中的句子来源于Hetq和Panarmenian新闻文章，通过从亚美尼亚语到英语的回译方法生成复述句子，并经过人工审核和标注。无效句子被过滤掉，其余句子被标注为复述、近似复述或非复述。测试样本由三位不同的标注者审核。此外，为了增加非复述对的数量，数据集还添加了自动生成的负样本，包括连续句子对和随机句子对。

提供机构：

Karavet

原始信息汇总

数据集描述

我们提供了用于亚美尼亚语的句子释义检测训练和测试数据集，以及基于BERT的模型。

数据集概述

数据集中的句子来自Hetq和Panarmenian新闻文章。为了生成释义句子，我们使用了从亚美尼亚语到英语的回译方法。我们重复了两次这一步骤，然后对生成的释义进行了人工审查。无效的句子被过滤掉，其余的被标记为释义、近似释义或非释义。测试示例由3名不同的注释者审查。此外，为了增加非释义对的数目，我们用自动生成的负例填充了数据集，包括连续句子和随机对。

数据集结构

每行包含2个句子和它们的标签。这些句子被标记为释义、近似释义或非释义（分别用1、0、-1标签表示）。句子被分为训练集和测试集。

示例数量	总计	释义	非释义（近似释义）
训练集	4233	1339	2683（211）
测试集	1682	1021	448（213）

数据集评估

我们对多语言BERT进行了微调，并在包括提议的ARPA数据集在内的几个训练集上进行了评估。在训练和评估过程中，近似释义和非释义对被合并为一个类别。结果如下：

BERT模型	训练集	F1	准确率
多语言BERT	ARPA训练集	84.27	78.06
多语言BERT	机器翻译成亚美尼亚语的Paraphraser.ru训练集	83.81	77.09
多语言BERT	机器翻译成亚美尼亚语的MRPC训练集	80.07	69.87
多语言BERT	上述所有组合	84	77.6

附加信息

在ARPA上训练的模型可供使用，可以通过此链接下载。

有关模型和数据集构建的更多详细信息，请参阅论文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集