PerPaDa|自然语言处理数据集|抄袭检测数据集

arXiv2022-01-18 更新2024-06-21 收录

自然语言处理

抄袭检测

下载链接：

http://hamtajoo.ir/corpus

下载链接

链接失效反馈

资源简介：

PerPaDa是一个基于隐式众包数据收集的波斯语释义数据集，由德国人工智能研究中心等机构创建。该数据集包含2446个释义实例，数据来源于Hamtajoo抄袭检测系统，用户在此系统中尝试通过释义来隐藏文本重复使用的情况。数据集的创建过程涉及从Hamtajoo平台收集原始和释义的句子，并通过一系列筛选步骤确保数据质量。PerPaDa的应用领域主要集中在自然语言处理中的释义识别任务，旨在提高抄袭检测系统的能力，使其能够识别语义上相似或相关的句子和短语。

提供机构：

德国人工智能研究中心

创建时间：

2022-01-18

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的，包含超过5000条中文语句，每条语句都配有详细的个人资料信息，如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量，旨在解决在语义模糊的实际场景中，传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力，特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

LOL (LOw-Light dataset)

LOL 数据集由 500 个低光和正常光图像对组成，分为 485 个训练对和 15 个测试对。低光图像包含照片捕获过程中产生的噪声。大多数图像是室内场景。所有图像的分辨率均为 400×600。

OpenDataLab 收录