five

Karavet/ARPA-Armenian-Paraphrase-Corpus

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Karavet/ARPA-Armenian-Paraphrase-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了亚美尼亚语的句子复述检测训练集和测试集,以及基于BERT的模型。数据集中的句子来源于Hetq和Panarmenian新闻文章,通过从亚美尼亚语到英语的回译方法生成复述句子,并经过人工审核和标注。无效句子被过滤掉,其余句子被标注为复述、近似复述或非复述。测试样本由三位不同的标注者审核。此外,为了增加非复述对的数量,数据集还添加了自动生成的负样本,包括连续句子对和随机句子对。
提供机构:
Karavet
原始信息汇总

数据集描述

我们提供了用于亚美尼亚语的句子释义检测训练和测试数据集,以及基于BERT的模型。

数据集概述

数据集中的句子来自HetqPanarmenian新闻文章。为了生成释义句子,我们使用了从亚美尼亚语到英语的回译方法。我们重复了两次这一步骤,然后对生成的释义进行了人工审查。无效的句子被过滤掉,其余的被标记为释义、近似释义或非释义。测试示例由3名不同的注释者审查。此外,为了增加非释义对的数目,我们用自动生成的负例填充了数据集,包括连续句子和随机对。

数据集结构

每行包含2个句子和它们的标签。这些句子被标记为释义、近似释义或非释义(分别用1、0、-1标签表示)。句子被分为训练集和测试集。

示例数量 总计 释义 非释义(近似释义)
训练集 4233 1339 2683(211)
测试集 1682 1021 448(213)

数据集评估

我们对多语言BERT进行了微调,并在包括提议的ARPA数据集在内的几个训练集上进行了评估。在训练和评估过程中,近似释义和非释义对被合并为一个类别。结果如下:

BERT模型 训练集 F1 准确率
多语言BERT ARPA训练集 84.27 78.06
多语言BERT 机器翻译成亚美尼亚语的Paraphraser.ru训练集 83.81 77.09
多语言BERT 机器翻译成亚美尼亚语的MRPC训练集 80.07 69.87
多语言BERT 上述所有组合 84 77.6

附加信息

在ARPA上训练的模型可供使用,可以通过此链接下载。

有关模型和数据集构建的更多详细信息,请参阅论文

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作