TurkuNLP/turku_paraphrase_corpus
收藏Hugging Face2025-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/turku_paraphrase_corpus
下载链接
链接失效反馈官方服务:
资源简介:
Turku Paraphrase Corpus数据集包含超过100,000对芬兰语释义对,这些释义对是手动选择和分类的,以最小化词汇重叠,并提供在结构和词汇上最大程度不同的示例。数据集的主要应用是开发和评估深度语言模型以及表示学习。数据集支持多种配置,包括`plain`、`classification`和`generation`,每种配置有不同的数据字段和用途。数据集还提供了上下文信息,但默认情况下不包括上下文以节省内存。
提供机构:
TurkuNLP
原始信息汇总
数据集概述
数据集名称: Turku Paraphrase Corpus
语言: 芬兰语
许可证: CC-BY-SA-4.0
数据集大小: 100K<n<1M
数据来源: 原始数据
多语言性: 单语种
任务类别:
- 文本分类
- 句子相似度
- 文本到文本生成
- 其他
任务ID: 语义相似度分类
数据集描述
数据集摘要: 该项目收集了超过100,000对芬兰语同义句对。这些同义句是经过人工筛选和分类的,以最小化词汇重叠,并提供结构和词汇上最大程度不同的示例。目的是创建一个能够更好地测试自然语言理解能力的挑战性数据集。数据的一个重要特点是大多数同义句对在其文档上下文中分布。该数据集主要用于深度语言模型的发展和评估,以及一般的表示学习。
支持的任务和排行榜:
- 同义句分类
- 同义句生成
数据集结构
数据实例: [信息待补充]
数据字段:
数据集包含文本段对,每个示例包括两个文本段(字符串)、一个手动标注的同义句类型标签(字符串)和附加元数据。数据集包括三种配置:plain、classification 和 generation。
plain配置加载原始数据,无需任何额外预处理或转换。classification配置直接构建适合训练同义句分类器的数据,其中每个示例在数据中加倍,考虑方向性(text1, text2, label)--> (text2, text1, label),并根据需要处理标签翻转。generation配置中,示例经过预处理,直接适合同义句生成任务。在此配置中,不适合生成的同义句(负面的和高度依赖上下文的同义句)被丢弃,方向性同义句被提供,以防止模型幻觉。
数据分割: [信息待补充]
数据集创建
数据收集和规范化: [信息待补充]
源语言生产者: [信息待补充]
注释过程: [信息待补充]
注释者: [信息待补充]
个人和敏感信息: [信息待补充]
搜集汇总
数据集介绍

背景与挑战
背景概述
这是一个大型芬兰语释义对数据集,包含超过10万对人工分类的释义,旨在最小化词汇重叠并最大化结构和词汇差异,以挑战自然语言理解能力。数据集中大多数释义对带有文档上下文,支持多种配置(如分类和生成任务),主要用于深度语言模型的开发和表示学习。
以上内容由遇见数据集搜集并总结生成



