Turku paraphrase corpus

github2023-05-31 更新2024-05-31 收录

下载链接：

https://github.com/TurkuNLP/Turku-paraphrase-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含超过100,000个手动标注的paraphrase对，来源于替代字幕、新闻标题、新闻文章、讨论论坛消息、学生翻译和论文。大多数数据在给定上下文中或普遍被分类为paraphrase。该数据集的一个显著特点是paraphrase对与其文档上下文一起提供。主要语言为芬兰语，包含一个小规模的瑞典语测试集，用于小规模转移评估。

This dataset comprises over 100,000 manually annotated paraphrase pairs, sourced from alternative subtitles, news headlines, news articles, discussion forum messages, student translations, and theses. The majority of the data is classified as paraphrases within a given context or generally. A distinctive feature of this dataset is that paraphrase pairs are provided alongside their document context. The primary language is Finnish, including a small-scale Swedish test set for minor transfer evaluation.

创建时间：

2021-02-08

原始信息汇总

Turku-paraphrase-corpus 数据集概述

数据集描述

类型: 完全手动标注的释义语料库
规模: 包含超过100,000个释义对
来源: 来自替代字幕、新闻标题、新闻文章、讨论论坛消息、学生翻译和论文
特点: 释义对与其文档上下文一起提供
语言: 主要为芬兰语，包含一小部分瑞典语测试集

文件格式

主要文件: train,dev,test.json，包含手动标注的语料库主要数据
辅助文件: opus-parsebank-sample-annotated.tsv，包含来自OPUS和Turku Internet Parsebank的句子对样本，以及手动标注
数据结构: 每个数据项为字典，包含txt1、txt2、rewrites、label、fold、goeswith和context等键

标签系统

主要标签:
- 2: 相关但非释义
- 3: 在特定文档上下文中为释义，但一般不为释义
- 4: 在所有合理可能的上下文中均为释义
附加标志:
- i: 微小可追踪差异
- s: 风格差异
- <: 文本1比文本2更一般
- >: 文本2比文本1更一般

许可证

类型: 创意共享署名-相同方式共享4.0国际许可（CC BY-SA 4.0）

搜集汇总

数据集介绍

构建方式

Turku paraphrase corpus的构建过程体现了高度的精细化和多样化。该数据集通过从多种来源收集数据，包括替代字幕、新闻标题、新闻文章、讨论论坛消息、学生翻译和论文等，确保了数据的广泛性和代表性。每对释义对都经过人工标注，确保其在不同上下文中的适用性。此外，数据集还特别提供了释义对的文档上下文，增强了数据的实用性和研究价值。

使用方法

使用Turku paraphrase corpus时，研究者可以通过JSON格式的文件访问数据。每个数据项包含释义对的文本、重写版本、标签、数据分割标识符以及文档上下文信息。研究者可以利用这些信息进行释义检测、文本重写、跨语言评估等多种自然语言处理任务。数据集的100个数据分割部分允许进行安全的交叉验证，确保研究结果的可靠性。

背景与挑战

背景概述

Turku Paraphrase Corpus是由芬兰图尔库大学的研究团队于2021年创建的一个大规模人工标注的复述语料库。该语料库包含了超过10万对复述对，涵盖了多种文本类型，如替代字幕、新闻标题、新闻文章、论坛消息、学生翻译和论文等。其主要研究问题在于如何在不同语境下准确识别和分类复述对，并为自然语言处理任务提供高质量的标注数据。该语料库的独特之处在于，它不仅提供了复述对，还附带了其所在的文档上下文，这为复述识别和理解提供了更丰富的语境信息。该数据集在芬兰语和瑞典语的自然语言处理研究中具有重要影响力，尤其是在复述检测、机器翻译和文本生成等领域。

当前挑战

Turku Paraphrase Corpus在构建过程中面临了多重挑战。首先，复述对的识别和标注需要高度的语言理解能力，尤其是在多语言和多文本类型的背景下，如何确保标注的一致性和准确性是一个复杂的问题。其次，语料库的构建依赖于多种数据源，如Open Subtitles等，数据源的多样性和质量差异增加了数据清洗和整合的难度。此外，复述对的语境依赖性使得标注过程必须考虑上下文信息，这进一步增加了标注的复杂性。在应用层面，尽管该语料库为复述检测和文本生成等任务提供了丰富的数据支持，但如何有效利用这些数据来提升模型的泛化能力和跨语言迁移能力仍是一个亟待解决的问题。

常用场景

经典使用场景

Turku paraphrase corpus 数据集在自然语言处理领域中被广泛用于研究文本的复述检测和生成。通过提供超过10万对的手工标注复述对，该数据集为研究人员提供了一个丰富的资源，用于训练和评估复述检测模型。特别是在芬兰语和瑞典语的语境下，该数据集为跨语言复述研究提供了宝贵的实验数据。

解决学术问题

该数据集解决了复述检测中的关键问题，如如何在不同的语境下识别复述对，以及如何处理复述对中的细微差异。通过提供详细的上下文信息和多种标签分类，研究人员可以更精确地理解复述的语义边界，从而提升复述检测模型的性能。此外，数据集中的跨语言部分还为研究语言间的复述转移提供了实验基础。

实际应用

在实际应用中，Turku paraphrase corpus 数据集被用于开发自动翻译系统中的复述生成模块，帮助提升翻译的多样性和准确性。此外，该数据集还被应用于信息检索系统，通过识别复述对来提高搜索结果的相关性。在教育和语言学习领域，该数据集也被用于开发复述练习工具，帮助学习者更好地掌握语言表达。

数据集最近研究