Cross-Language Dataset
收藏github2020-07-28 更新2024-05-31 收录
下载链接:
https://github.com/hxin08/Cross-Language-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多语言、多风格和多粒度的数据集,用于跨语言文本相似性检测。它包括法语、英语和西班牙语,提供文档级、句子级和块级的跨语言对齐信息,基于平行和可比语料库,包含人工和机器翻译文本,部分数据经过修改以增加跨语言相似性检测的复杂性,文档由不同类型的作者编写。
This is a multilingual, multi-style, and multi-granularity dataset designed for cross-lingual text similarity detection. It includes French, English, and Spanish, providing document-level, sentence-level, and chunk-level cross-lingual alignment information. The dataset is based on parallel and comparable corpora, encompassing both human and machine-translated texts. Some data have been modified to enhance the complexity of cross-lingual similarity detection. The documents are authored by various types of writers.
创建时间:
2020-04-25
原始信息汇总
数据集概述
数据集名称
Cross-Language Dataset
数据集描述
这是一个多语言、多风格、多粒度的数据集,用于跨语言文本相似度检测。具体特点如下:
- 语言:包含法语、英语和西班牙语。
- 粒度:提供文档级、句子级和块级的跨语言对齐信息。
- 数据来源:基于平行和可比语料库。
- 文本类型:包含人工和机器翻译的文本。
- 数据处理:部分数据经过修改以增加跨语言相似度检测的复杂性,其余部分保持无噪声。
- 作者多样性:文档由不同类型的作者撰写,从普通作者到专业作者。
数据集组成部分
| 子语料库 | 对齐类型 | 作者类型 | 翻译类型 | 翻译者类型 | 是否修改 | NE (%) |
|---|---|---|---|---|---|---|
| JRC Acquis<sup>2</sup> | 平行 | 政治家 | 人工 | 专业 | 否 | 3.74 |
| Europarl<sup>1</sup> | 平行 | 政治家 | 人工 | 专业 | 否 | 7.74 |
| Wikipedia<sup>2</sup> | 可比 | 任何人 | - | - | 噪声 | 8.37 |
| PAN-PC-11<sup>3</sup> | 平行 | 专业作者 | 人工 | 专业 | 是 | 3.24 |
| APR (Amazon Product Reviews<sup>4</sup>) | 平行 | 任何人 | 机器 | Google Translate | 否 | 6.04 |
| Conference papers | 可比 | 计算机科学家 | 人工 | 计算机科学家 | 噪声 | 9.36 |
数据集统计
| 子语料库 | 对齐文档数 | 对齐句子数 | 对齐名词块数 |
|---|---|---|---|
| JRC-Acquis<sup>2</sup> | 10,000 | 149,506 | 10,094 |
| Europarl<sup>1</sup> | 9,431 | 475,834 | 25,603 |
| Wikipedia<sup>2</sup> | 10,000 | 4,792 | 132 |
| PAN-PC-11<sup>3</sup> | 2,920 | 88,977 | 1,360 |
| APR (Amazon Product Reviews<sup>4</sup>) | 6,000 | 23,235 | 2,603 |
| Conference papers | 35 | 1,304 | 272 |
数据集存储结构
- 文档级对齐:位于
dataset/documents/目录。 - 句子级对齐:位于
dataset/sentences/目录。 - 块级对齐:位于
dataset/chunks/目录。 - 原始科学论文:位于
dataset/documents/Conference_papers/pdf_conference_papers/目录。 - PAN-PC-11元数据:位于
dataset/*/PAN11/metadata/目录。 - 相关论文:位于
docs/目录。 - 评估使用的掩码:位于
masks/目录。 - 重建数据集的脚本:位于
scripts/目录。 - 数据集统计信息:位于
stats/目录。 - 研究相关的XLSX文件:位于
study/目录。
搜集汇总
数据集介绍

构建方式
Cross-Language Dataset的构建基于多语言、多风格和多粒度的文本对齐需求,涵盖了法语、英语和西班牙语三种语言。数据集通过整合平行语料库和可比语料库,结合人工翻译和机器翻译的文本,确保了数据的多样性和复杂性。部分文本经过人为修改以增加跨语言相似性检测的难度,而另一部分则保持原始状态。数据来源广泛,包括政治家、专业作者以及普通用户的文本,确保了数据集的代表性和实用性。
特点
该数据集的特点在于其多语言、多风格和多粒度的特性。它不仅支持文档级、句子级和短语级的文本对齐,还包含了平行语料和可比语料,涵盖了从专业到非专业的多种文本风格。此外,数据集中的部分文本经过噪声处理,增加了跨语言相似性检测的挑战性。数据集还提供了丰富的元数据信息,便于用户进行深入分析和研究。
使用方法
用户可以通过访问数据集的不同目录,获取文档级、句子级和短语级的对齐文本。数据集提供了详细的脚本和工具,支持用户从现有语料库中重建数据集。用户还可以利用提供的统计信息和元数据,进行跨语言相似性检测的研究。此外,数据集附带的脚本和工具支持用户扩展和自定义数据集,满足特定研究需求。
背景与挑战
背景概述
Cross-Language Dataset 是一个多语言、多风格、多粒度的跨语言文本相似性检测数据集,由Jérémy Ferrero、Frédéric Agnès、Laurent Besacier和Didier Schwab等研究人员于2016年创建,并在第十届语言资源与评估会议(LREC 2016)上发布。该数据集涵盖了法语、英语和西班牙语三种语言,提供了文档级、句子级和短语级的跨语言对齐信息,并基于平行语料库和可比语料库构建。其独特之处在于包含了人工翻译和机器翻译的文本,部分数据经过人为修改以增加检测难度,另一部分则保持原始状态。该数据集的发布为跨语言文本相似性检测领域的研究提供了重要的资源支持,推动了多语言自然语言处理技术的发展。
当前挑战
Cross-Language Dataset 的构建和应用面临多重挑战。首先,跨语言文本相似性检测本身具有较高的复杂性,尤其是在多语言、多风格和多粒度的背景下,如何准确捕捉不同语言之间的语义相似性是一个核心难题。其次,数据集的构建过程中需要处理多种类型的语料库,包括平行语料库和可比语料库,且需确保不同语言之间的对齐质量。此外,数据集中的部分文本经过人为修改以增加噪声,这对模型的鲁棒性提出了更高要求。最后,如何有效利用该数据集进行跨语言文本相似性检测的评估,尤其是在不同语言对和不同粒度下的性能对比,仍需进一步探索和优化。
常用场景
经典使用场景
在跨语言文本相似性检测领域,Cross-Language Dataset 提供了一个多语言、多风格和多粒度的数据集,广泛应用于跨语言对齐、机器翻译质量评估以及跨语言抄袭检测等研究。该数据集通过包含法语、英语和西班牙语的平行文本和可比文本,支持从文档级到句子级和短语级的多层次分析,为研究者提供了丰富的实验材料。
解决学术问题
Cross-Language Dataset 解决了跨语言文本相似性检测中的关键问题,如多语言对齐的复杂性、翻译质量的评估以及跨语言抄袭的识别。通过提供包含人工翻译和机器翻译的文本,以及部分经过噪声处理的文本,该数据集为研究者提供了多样化的实验环境,推动了跨语言自然语言处理技术的发展。
衍生相关工作
基于 Cross-Language Dataset,研究者们开发了多种跨语言文本相似性检测算法和工具。例如,在 BUCC 2017 论文中,研究者利用该数据集对跨语言抄袭检测方法进行了深入分析。此外,该数据集还启发了多语言机器翻译模型的优化研究,推动了跨语言自然语言处理技术的进一步发展。
以上内容由遇见数据集搜集并总结生成



