Cross-Language Dataset

github2024-03-29 更新2024-05-31 收录

下载链接：

https://github.com/FerreroJeremy/Cross-Language-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多语言、多风格和多粒度的数据集，用于跨语言文本相似性检测。数据集包含法语、英语和西班牙语，提供不同粒度的跨语言对齐信息，包括文档级、句子级和块级。数据集基于平行和可比语料库，包含人工和机器翻译文本，部分数据经过修改以增加跨语言相似性检测的复杂性。文档由不同类型的作者撰写，从普通作者到专业作者。

This is a multilingual, multi-style and multi-granularity dataset intended for cross-lingual text similarity detection. The dataset covers French, English and Spanish, and provides cross-lingual alignment information at different granularities, including document-level, sentence-level and chunk-level. Built upon parallel and comparable corpora, it contains both human-translated and machine-translated texts, with a portion of the data modified to increase the complexity of cross-lingual text similarity detection tasks. The documents are written by authors of various categories, ranging from ordinary individual writers to professional authors.

创建时间：

2015-10-19

原始信息汇总

Cross-Language Dataset

描述

该数据集是一个用于跨语言文本相似性检测的多语言、多风格和多粒度数据集。具体特点如下：

多语言：包含法语、英语和西班牙语。
多粒度：提供不同粒度的跨语言对齐信息，包括文档级、句子级和块级。
基于语料库：基于平行语料和可比语料。
翻译类型：包含人工翻译和机器翻译文本。
数据处理：部分数据经过修改（以增加跨语言相似性检测的复杂性），其余部分保持无噪声。
作者类型：文档由不同类型的作者编写，从普通到专业。

特征

子语料库	对齐类型	作者类型	翻译类型	翻译者	修改	NE (%)
JRC Acquis<sup>2</sup>	平行	政治家	人工	专业	否	3.74
Europarl<sup>1</sup>	平行	政治家	人工	专业	否	7.74
Wikipedia<sup>2</sup>	可比	任何人	-	-	噪声	8.37
PAN-PC-11<sup>3</sup>	平行	专业作者	人工	专业	是	3.24
APR (Amazon Product Reviews<sup>4</sup>)	平行	任何人	机器	Google Translate	否	6.04
会议论文	可比	计算机科学家	人工	计算机科学家	噪声	9.36

统计数据

子语料库	对齐文档数量	对齐句子数量	对齐名词块数量
JRC-Acquis<sup>2</sup>	10,000	149,506	10,094
Europarl<sup>1</sup>	9,431	475,834	25,603
Wikipedia<sup>2</sup>	10,000	4,792	132
PAN-PC-11<sup>3</sup>	2,920	88,977	1,360
APR (Amazon Product Reviews<sup>4</sup>)	6,000	23,235	2,603
会议论文	35	1,304	272

数据集结构

dataset/documents/ 目录：包含文档级对齐的平行和可比文件。
dataset/sentences/ 目录：包含句子级对齐的平行和可比文件。
dataset/chunks/ 目录：包含块级对齐的平行和可比文件。
dataset/documents/Conference_papers/ 目录：包含原始科学论文的 PDF 格式文件。
dataset/*/PAN11/ 子目录：包含 PAN-PC-11 对齐的额外元数据。
docs/ 目录：包含与数据集相关的论文。
masks/ 目录：包含用于构建评估折的掩码。
scripts/ 目录：包含重建数据集所需的脚本。
stats/ 目录：包含数据集的统计数据 XLSX 文件。
study/ 目录：包含 BUCC 2017 论文中进行的研究的 XLSX 文件。

脚本目录

scripts/chunking/ 目录：包含从 TreeTagger 的 POS 序列中提取名词块的脚本。
scripts/create_translations_dico/ 目录：包含为 HunAlign 构建一元翻译字典的脚本。
scripts/create_verif_align/ 目录：包含以可读格式打印和保存对齐的脚本。
scripts/enrich_dico_with_dbnary/ 目录：包含使用 DBNary 条目丰富一元翻译字典的脚本。
scripts/parse_APR_collection/ 目录：包含解析 Webis-CLS-10 语料库并提取英法对齐对的脚本。
scripts/parse_PAN_collection/ 目录：包含解析 PAN-PC-11 语料库并提取英西对齐对及其元数据的脚本。
scripts/parse_conf_papers_bibtex/ 目录：包含解析 TALN BibTeX，爬取网页并构建法英会议论文对的脚本。

引用

使用此数据集时，请引用：

@inproceedings{CrossLanguageDatasetLREC2016, TITLE = {{A Multilingual, Multi-Style and Multi-Granularity Dataset for Cross-Language Textual Similarity Detection}}, AUTHOR = {J{e}r{e}my Ferrero and Fr{e}d{e}ric Agn{`e}s and Laurent Besacier and Didier Schwab}, BOOKTITLE = {{The 10th edition of the Language Resources and Evaluation Conference (LREC 2016)}}, ADDRESS = {Portoro{v z}, Slovenia}, YEAR = {2016}, MONTH = May, KEYWORDS = {Cross-language plagiarism detection ; Dataset ; Cross-language dataset ; Cross-language similarity detection ; Evaluation}, }

搜集汇总

数据集介绍

构建方式

Cross-Language Dataset的构建基于多源语料库，包括平行语料库和可比语料库，涵盖了法语、英语和西班牙语三种语言。数据集通过人工和机器翻译的方式生成文本，并在不同粒度（文档级、句子级和名词块级）上进行跨语言对齐。部分文本经过人为修改以增加跨语言相似性检测的复杂性，而其余部分则保持原样。数据集的构建还涉及多种类型的作者，从普通用户到专业人士，确保了文本的多样性和广泛性。

特点

Cross-Language Dataset具有多语言、多风格和多粒度的特点。它不仅包含法语、英语和西班牙语三种语言的文本，还提供了文档级、句子级和名词块级的跨语言对齐信息。数据集中的文本来源多样，既有平行语料库，也有可比语料库，且包含人工翻译和机器翻译的文本。部分文本经过修改以增加检测难度，而其余部分则保持原样。此外，数据集的作者群体广泛，涵盖了从普通用户到专业人士的不同层次，进一步增强了数据集的多样性和实用性。

使用方法

Cross-Language Dataset的使用方法灵活多样，用户可以根据需求在不同粒度上进行跨语言相似性检测。数据集分为文档级、句子级和名词块级三个目录，用户可以通过相应的文件进行文本对齐和相似性分析。此外，数据集还提供了丰富的脚本和工具，帮助用户从现有语料库中重建数据集或进行进一步的分析。用户还可以通过提供的统计信息和元数据文件深入了解数据集的构成和特征，从而更好地应用于跨语言文本相似性检测的研究和实践。

背景与挑战

背景概述

Cross-Language Dataset 是由 Jérémy Ferrero、Frédéric Agnès、Laurent Besacier 和 Didier Schwab 等研究人员于2016年创建的多语言、多风格和多粒度跨语言文本相似性检测数据集。该数据集旨在解决跨语言文本相似性检测中的复杂问题，涵盖了法语、英语和西班牙语三种语言，并提供了文档级、句子级和片段级的不同粒度对齐信息。数据集的构建基于平行语料库和可比语料库，包含人工翻译和机器翻译的文本，部分数据经过人为修改以增加检测难度。该数据集在跨语言抄袭检测、机器翻译和跨语言信息检索等领域具有重要影响力，为相关研究提供了丰富的实验数据。

当前挑战

Cross-Language Dataset 在解决跨语言文本相似性检测问题时面临多重挑战。首先，跨语言文本相似性检测需要处理不同语言之间的语义差异和结构差异，这对模型的泛化能力提出了较高要求。其次，数据集中包含多种文本风格和作者类型，从普通用户到专业人士，增加了检测的复杂性。此外，数据集中部分文本经过人为修改，进一步提升了检测难度。在构建过程中，研究人员还需处理多语言对齐、文本噪声和数据一致性等问题，确保数据集的高质量和实用性。这些挑战使得该数据集成为跨语言文本相似性检测研究的重要基准。

常用场景

经典使用场景

Cross-Language Dataset在跨语言文本相似性检测领域具有广泛的应用。该数据集通过提供多语言、多风格和多粒度的文本对齐信息，为研究人员提供了一个全面的实验平台。其经典使用场景包括跨语言抄袭检测、机器翻译质量评估以及多语言信息检索系统的开发。数据集中的文档、句子和名词块级别的对齐信息，使得研究者能够在不同粒度上深入分析文本相似性，从而提升相关算法的性能。

实际应用

在实际应用中，Cross-Language Dataset被广泛应用于跨语言信息检索、多语言文档分类和机器翻译系统的优化。例如，在跨语言信息检索系统中，该数据集可以用于训练和评估检索算法，提升系统在多语言环境下的检索准确率。此外，数据集中的多语言对齐信息也为机器翻译系统的质量评估提供了重要参考，帮助开发者识别和修正翻译中的错误。在学术领域，该数据集还被用于跨语言抄袭检测工具的开发，帮助学术机构识别和防止跨语言抄袭行为。

衍生相关工作

Cross-Language Dataset的发布催生了一系列相关研究工作。例如，基于该数据集的研究成果在跨语言抄袭检测、多语言文本分类和机器翻译领域取得了显著进展。一些经典工作利用该数据集开发了新的跨语言文本相似性检测算法，提升了检测的准确性和效率。此外，该数据集还被用于评估和改进现有的跨语言信息检索系统，推动了多语言信息处理技术的发展。这些衍生工作不仅验证了数据集的价值，也为相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集