Karavet/ARPA-Armenian-Paraphrase-Corpus
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Karavet/ARPA-Armenian-Paraphrase-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了亚美尼亚语的句子复述检测训练集和测试集,以及基于BERT的模型。数据集中的句子来源于Hetq和Panarmenian新闻文章,通过从亚美尼亚语到英语的回译方法生成复述句子,并经过人工审核和标注。无效句子被过滤掉,其余句子被标注为复述、近似复述或非复述。测试样本由三位不同的标注者审核。此外,为了增加非复述对的数量,数据集还添加了自动生成的负样本,包括连续句子对和随机句子对。
提供机构:
Karavet
原始信息汇总
数据集描述
我们提供了用于亚美尼亚语的句子释义检测训练和测试数据集,以及基于BERT的模型。
数据集概述
数据集中的句子来自Hetq和Panarmenian新闻文章。为了生成释义句子,我们使用了从亚美尼亚语到英语的回译方法。我们重复了两次这一步骤,然后对生成的释义进行了人工审查。无效的句子被过滤掉,其余的被标记为释义、近似释义或非释义。测试示例由3名不同的注释者审查。此外,为了增加非释义对的数目,我们用自动生成的负例填充了数据集,包括连续句子和随机对。
数据集结构
每行包含2个句子和它们的标签。这些句子被标记为释义、近似释义或非释义(分别用1、0、-1标签表示)。句子被分为训练集和测试集。
| 示例数量 | 总计 | 释义 | 非释义(近似释义) |
|---|---|---|---|
| 训练集 | 4233 | 1339 | 2683(211) |
| 测试集 | 1682 | 1021 | 448(213) |
数据集评估
我们对多语言BERT进行了微调,并在包括提议的ARPA数据集在内的几个训练集上进行了评估。在训练和评估过程中,近似释义和非释义对被合并为一个类别。结果如下:
| BERT模型 | 训练集 | F1 | 准确率 |
|---|---|---|---|
| 多语言BERT | ARPA训练集 | 84.27 | 78.06 |
| 多语言BERT | 机器翻译成亚美尼亚语的Paraphraser.ru训练集 | 83.81 | 77.09 |
| 多语言BERT | 机器翻译成亚美尼亚语的MRPC训练集 | 80.07 | 69.87 |
| 多语言BERT | 上述所有组合 | 84 | 77.6 |
附加信息
在ARPA上训练的模型可供使用,可以通过此链接下载。
有关模型和数据集构建的更多详细信息,请参阅论文。



