five

GEM/turku_paraphrase_corpus

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/turku_paraphrase_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个芬兰语释义语料库,由成对的文本段落组成,每个段落通常是一个句子长度。该语料库可用于释义识别或生成任务。数据集由专家创建,包含手动注释的释义类型标签,并提供了三种模式:plain、classification和generation,以适应不同的任务需求。数据集的结构包括多个字段,如gem_id、goeswith、fold、text1、text2、label等,并提供了数据加载的示例代码。
提供机构:
GEM
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: turku_paraphrase_corpus
  • 数据集别名: GEM/turku_paraphrase_corpus
  • 数据集语言: 芬兰语 (fi)
  • 数据集许可证: CC-BY-SA-4.0
  • 数据集来源: 原始数据
  • 数据集任务类别: 其他
  • 数据集标签: 释义

数据集描述

  • 数据集概况: 这是一个芬兰语释义语料库,包含成对的文本段落,典型段落长度约为一句话。该数据集可用于识别或生成释义。
  • 数据集用途: 释义分类、释义生成
  • 数据集任务: 释义
  • 数据集通信目标: 该语料库提供自然发生的芬兰语释义,力求低词汇重叠,支持多种下游应用,要求语言理解。

数据集结构

  • 数据字段:

    • gem_id: 释义对标识符
    • goeswith: 释义来源文档标识符
    • fold: 数据分割标识
    • text1: 第一段释义文本
    • text2: 第二段释义文本
    • label: 手动标注的标签
    • binary_label: 二元标签(正/负)
    • is_rewrite: 是否为人工重写
  • 数据模式:

    • plain: 原始数据
    • classification: 分类任务数据
    • generation: 生成任务数据
  • 数据分割:

    • 训练集
    • 验证集
    • 测试集

数据集创建者

  • 创建者: Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpeläinen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sevón, Otto Tarkka
  • 创建者机构: TurkuNLP / University of Turku

数据集维护

  • 维护计划: 无详细信息

数据集获取

  • 数据集主页: https://turkunlp.org/paraphrase.html
  • 数据集仓库: https://github.com/TurkuNLP/Turku-paraphrase-corpus
  • 数据集论文: https://aclanthology.org/2021.nodalida-main.29/
  • 数据集联系人: Jenna Kanerva, Filip Ginter
  • 数据集联系邮箱: jmnybl@utu.fi, figint@utu.fi

数据集许可证

  • 许可证类型: CC-BY-SA-4.0
  • 许可证描述: 创意共享署名-相同方式共享4.0国际许可

数据集来源

  • 数据来源类型: 学术
  • 数据来源机构: University of Turku
  • 数据来源详情: 数据集主要来源于电影和电视系列字幕、新闻文章、讨论论坛消息、大学翻译练习、课程论文和考试。

数据集注释

  • 注释创建者: 专家创建
  • 注释质量控制: 部分双注释,通过定期分配双注释批次来监控注释一致性。

数据集资金

  • 资金来源: 芬兰科学院、欧洲语言网格项目

数据集在GEM中的角色

  • 数据集在GEM中的贡献: 提供大量高质量(手动收集和验证)的芬兰语释义。
  • 数据集在GEM中的修改: 数据结构略有简化,提供两种任务(释义分类和生成)的预处理数据。

数据集示例

json { gem_id: gem-turku_paraphrase_corpus-train-15, goeswith: episode-02243, fold: 0, text1: Mitä merkitystä sillä on?, text2: Mitä väliä sillä edes on?, label: 4, binary_label: positive, is_rewrite: False }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作