CL4Lang

Hugging Face2024-10-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/AntiplagiatCompany/CL4Lang

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于跨语言抄袭检测评估，包含来自4种语言（俄语、亚美尼亚语、西班牙语和英语）的维基百科文章子集。查询部分包含每种语言的维基百科文档，这些文档的句子通过Google Translate API从集合中翻译而来，并带有XML标记。数据集的目的是帮助开发跨语言抄袭检测方法。

创建时间：

2024-10-10

原始信息汇总

CL4Lang 数据集概述

基本信息

许可证: Apache 2.0
语言:
- 俄语 (ru)
- 亚美尼亚语 (hy)
- 西班牙语 (es)
- 英语 (en)
数据规模: 100K<n<1M
配置:
- 默认配置:
  - 数据文件:
    - collection: collection.csv
    - query: query.csv
标签:
- paraphrase
- crosslingual

数据集描述

主题: 跨语言抄袭检测
内容:
- collection: 包含4种语言（俄语、亚美尼亚语、西班牙语、英语）的维基百科文章子集。
- query: 包含每种语言的维基百科文档，其中包含从collection中使用Google Translate API翻译的句子，以及相应的XML标记。

使用方法

加载数据

python from datasets import load_dataset

ds = load_dataset("AntiplagiatCompany/CL4Lang")

创建索引

python collection = ds[collection].to_list() index = make_index(collection)

评估查询结果

python queries = ds[query].to_list() real, predict = [], [] for query in queries: real.append(query[xml]) predict.append( convert_answer_to_xml( index.search(text=query[text], lang=query[lang]) ) ) evaluate_system(real, predict)

引用

bibtex @article{10.1134/S0361768823040138, author = {Avetisyan, K. and Gritsay, G. and Grabovoy, A.}, title = {Cross-Lingual Plagiarism Detection: Two Are Better Than One}, year = {2023}, issue_date = {Aug 2023}, publisher = {Plenum Press}, address = {USA}, volume = {49}, number = {4}, issn = {0361-7688}, url = {https://doi.org/10.1134/S0361768823040138}, doi = {10.1134/S0361768823040138}, journal = {Program. Comput. Softw.}, month = aug, pages = {346–354}, numpages = {9}, keywords = {cross-lingual plagiarism detection, cross-lingual plagiarism detection benchmark, under-resourced languages, sequential merger approach} }

搜集汇总

数据集介绍

构建方式

CL4Lang数据集的构建基于跨语言抄袭检测的需求，采用了多语言维基百科文章作为基础数据。数据集的构建过程包括从四种语言（俄语、亚美尼亚语、西班牙语和英语）的维基百科文章中选取子集，并通过Google Translate API将这些文章中的句子翻译成其他语言，形成查询部分。此外，数据集还包含了XML标记，用于标注查询文本中的抄袭片段。

特点

CL4Lang数据集的特点在于其多语言性和跨语言抄袭检测的针对性。数据集涵盖了四种语言，能够有效支持跨语言抄袭检测任务。其查询部分通过翻译生成，模拟了真实场景中的跨语言抄袭行为。XML标记的引入使得数据集能够精确标注抄袭片段，为模型评估提供了可靠的基准。

使用方法

使用CL4Lang数据集时，首先通过`load_dataset`函数加载数据集，随后将集合部分转换为列表并进行索引构建。查询部分则通过遍历列表，提取XML标记信息，并与索引搜索结果进行对比，最终通过评估函数计算系统性能。数据集的使用流程清晰，能够有效支持跨语言抄袭检测模型的训练与评估。

背景与挑战

背景概述

随着科学文献在多语言环境中的广泛传播以及自动翻译和编辑工具的快速发展，跨语言抄袭检测成为了一个亟待解决的重要问题。CL4Lang数据集由AntiplagiatCompany于2023年发布，旨在为跨语言抄袭检测研究提供基准数据。该数据集基于四种语言（俄语、亚美尼亚语、西班牙语和英语）的维基百科文章构建，包含原始文本及其通过Google Translate API生成的翻译文本，并提供了XML标注信息。该数据集的发布为跨语言抄袭检测算法的开发与评估提供了重要支持，尤其在低资源语言的处理上展现了独特的价值。

当前挑战

CL4Lang数据集面临的挑战主要体现在两个方面。首先，跨语言抄袭检测本身具有较高的复杂性，尤其是在处理低资源语言时，由于语言资源的匮乏，算法的泛化能力受到限制。其次，数据集的构建过程中，如何确保翻译文本的质量以及标注的准确性是一个关键问题。尽管Google Translate API提供了高效的翻译服务，但其在不同语言对之间的翻译质量可能存在显著差异，这直接影响了数据集的可靠性和实用性。此外，XML标注的复杂性也对数据集的构建和使用提出了更高的技术要求。

常用场景

经典使用场景

CL4Lang数据集在跨语言抄袭检测领域具有重要应用价值。该数据集通过整合四种语言（俄语、亚美尼亚语、西班牙语和英语）的维基百科文章，并利用Google Translate API生成翻译句子，为研究者提供了一个标准化的跨语言抄袭检测基准。经典使用场景包括构建和评估跨语言抄袭检测模型，研究者可以通过该数据集训练模型，检测不同语言之间的文本重复或抄袭行为。

解决学术问题

CL4Lang数据集解决了跨语言抄袭检测中的关键学术问题。随着多语言科学文献的普及和自动翻译工具的发展，跨语言抄袭现象日益增多，传统单语言抄袭检测方法难以应对。该数据集通过提供多语言文本对及其翻译版本，帮助研究者开发更高效的跨语言抄袭检测算法，填补了该领域的数据空白，推动了相关研究的进展。

衍生相关工作

CL4Lang数据集的发布催生了一系列经典研究工作。例如，基于该数据集的研究提出了多种跨语言抄袭检测算法，包括基于向量搜索和BM25索引的方法。此外，该数据集还被用于评估和改进多语言文本相似度计算模型，推动了自然语言处理领域的技术进步。相关研究不仅提升了跨语言抄袭检测的准确性，还为低资源语言的文本处理提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集