PerPaDa
收藏arXiv2022-01-18 更新2024-06-21 收录
下载链接:
http://hamtajoo.ir/corpus
下载链接
链接失效反馈官方服务:
资源简介:
PerPaDa是一个基于隐式众包数据收集的波斯语释义数据集,由德国人工智能研究中心等机构创建。该数据集包含2446个释义实例,数据来源于Hamtajoo抄袭检测系统,用户在此系统中尝试通过释义来隐藏文本重复使用的情况。数据集的创建过程涉及从Hamtajoo平台收集原始和释义的句子,并通过一系列筛选步骤确保数据质量。PerPaDa的应用领域主要集中在自然语言处理中的释义识别任务,旨在提高抄袭检测系统的能力,使其能够识别语义上相似或相关的句子和短语。
提供机构:
德国人工智能研究中心
创建时间:
2022-01-18



