TurkuNLP/turku_paraphrase_corpus

Name: TurkuNLP/turku_paraphrase_corpus
Creator: TurkuNLP
Published: 2025-01-17 08:14:42
License: 暂无描述

Hugging Face2025-01-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TurkuNLP/turku_paraphrase_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Turku Paraphrase Corpus数据集包含超过100,000对芬兰语释义对，这些释义对是手动选择和分类的，以最小化词汇重叠，并提供在结构和词汇上最大程度不同的示例。数据集的主要应用是开发和评估深度语言模型以及表示学习。数据集支持多种配置，包括`plain`、`classification`和`generation`，每种配置有不同的数据字段和用途。数据集还提供了上下文信息，但默认情况下不包括上下文以节省内存。

提供机构：

TurkuNLP

原始信息汇总

数据集概述

数据集名称： Turku Paraphrase Corpus

语言： 芬兰语

许可证： CC-BY-SA-4.0

数据集大小： 100K<n<1M

数据来源： 原始数据

多语言性： 单语种

任务类别：

文本分类
句子相似度
文本到文本生成
其他

任务ID： 语义相似度分类

数据集描述

数据集摘要： 该项目收集了超过100,000对芬兰语同义句对。这些同义句是经过人工筛选和分类的，以最小化词汇重叠，并提供结构和词汇上最大程度不同的示例。目的是创建一个能够更好地测试自然语言理解能力的挑战性数据集。数据的一个重要特点是大多数同义句对在其文档上下文中分布。该数据集主要用于深度语言模型的发展和评估，以及一般的表示学习。

支持的任务和排行榜：

同义句分类
同义句生成

数据集结构

数据实例： [信息待补充]

数据字段： 数据集包含文本段对，每个示例包括两个文本段（字符串）、一个手动标注的同义句类型标签（字符串）和附加元数据。数据集包括三种配置：plain、classification 和 generation。

plain 配置加载原始数据，无需任何额外预处理或转换。
classification 配置直接构建适合训练同义句分类器的数据，其中每个示例在数据中加倍，考虑方向性（text1, text2, label）--> (text2, text1, label)，并根据需要处理标签翻转。
generation 配置中，示例经过预处理，直接适合同义句生成任务。在此配置中，不适合生成的同义句（负面的和高度依赖上下文的同义句）被丢弃，方向性同义句被提供，以防止模型幻觉。

数据分割： [信息待补充]