five

TurkuNLP/turku_paraphrase_corpus

收藏
Hugging Face2025-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/turku_paraphrase_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Turku Paraphrase Corpus数据集包含超过100,000对芬兰语释义对,这些释义对是手动选择和分类的,以最小化词汇重叠,并提供在结构和词汇上最大程度不同的示例。数据集的主要应用是开发和评估深度语言模型以及表示学习。数据集支持多种配置,包括`plain`、`classification`和`generation`,每种配置有不同的数据字段和用途。数据集还提供了上下文信息,但默认情况下不包括上下文以节省内存。
提供机构:
TurkuNLP
原始信息汇总

数据集概述

数据集名称: Turku Paraphrase Corpus

语言: 芬兰语

许可证: CC-BY-SA-4.0

数据集大小: 100K<n<1M

数据来源: 原始数据

多语言性: 单语种

任务类别:

  • 文本分类
  • 句子相似度
  • 文本到文本生成
  • 其他

任务ID: 语义相似度分类

数据集描述

数据集摘要: 该项目收集了超过100,000对芬兰语同义句对。这些同义句是经过人工筛选和分类的,以最小化词汇重叠,并提供结构和词汇上最大程度不同的示例。目的是创建一个能够更好地测试自然语言理解能力的挑战性数据集。数据的一个重要特点是大多数同义句对在其文档上下文中分布。该数据集主要用于深度语言模型的发展和评估,以及一般的表示学习。

支持的任务和排行榜:

  • 同义句分类
  • 同义句生成

数据集结构

数据实例: [信息待补充]

数据字段: 数据集包含文本段对,每个示例包括两个文本段(字符串)、一个手动标注的同义句类型标签(字符串)和附加元数据。数据集包括三种配置:plainclassificationgeneration

  • plain 配置加载原始数据,无需任何额外预处理或转换。
  • classification 配置直接构建适合训练同义句分类器的数据,其中每个示例在数据中加倍,考虑方向性(text1, text2, label)--> (text2, text1, label),并根据需要处理标签翻转。
  • generation 配置中,示例经过预处理,直接适合同义句生成任务。在此配置中,不适合生成的同义句(负面的和高度依赖上下文的同义句)被丢弃,方向性同义句被提供,以防止模型幻觉。

数据分割: [信息待补充]

数据集创建

数据收集和规范化: [信息待补充]

源语言生产者: [信息待补充]

注释过程: [信息待补充]

注释者: [信息待补充]

个人和敏感信息: [信息待补充]

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
这是一个大型芬兰语释义对数据集,包含超过10万对人工分类的释义,旨在最小化词汇重叠并最大化结构和词汇差异,以挑战自然语言理解能力。数据集中大多数释义对带有文档上下文,支持多种配置(如分类和生成任务),主要用于深度语言模型的开发和表示学习。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作