GEM/turku_paraphrase_corpus
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/turku_paraphrase_corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个芬兰语释义语料库,由成对的文本段落组成,每个段落通常是一个句子长度。该语料库可用于释义识别或生成任务。数据集由专家创建,包含手动注释的释义类型标签,并提供了三种模式:plain、classification和generation,以适应不同的任务需求。数据集的结构包括多个字段,如gem_id、goeswith、fold、text1、text2、label等,并提供了数据加载的示例代码。
提供机构:
GEM
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: turku_paraphrase_corpus
- 数据集别名: GEM/turku_paraphrase_corpus
- 数据集语言: 芬兰语 (fi)
- 数据集许可证: CC-BY-SA-4.0
- 数据集来源: 原始数据
- 数据集任务类别: 其他
- 数据集标签: 释义
数据集描述
- 数据集概况: 这是一个芬兰语释义语料库,包含成对的文本段落,典型段落长度约为一句话。该数据集可用于识别或生成释义。
- 数据集用途: 释义分类、释义生成
- 数据集任务: 释义
- 数据集通信目标: 该语料库提供自然发生的芬兰语释义,力求低词汇重叠,支持多种下游应用,要求语言理解。
数据集结构
-
数据字段:
gem_id: 释义对标识符goeswith: 释义来源文档标识符fold: 数据分割标识text1: 第一段释义文本text2: 第二段释义文本label: 手动标注的标签binary_label: 二元标签(正/负)is_rewrite: 是否为人工重写
-
数据模式:
plain: 原始数据classification: 分类任务数据generation: 生成任务数据
-
数据分割:
- 训练集
- 验证集
- 测试集
数据集创建者
- 创建者: Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpeläinen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sevón, Otto Tarkka
- 创建者机构: TurkuNLP / University of Turku
数据集维护
- 维护计划: 无详细信息
数据集获取
- 数据集主页: https://turkunlp.org/paraphrase.html
- 数据集仓库: https://github.com/TurkuNLP/Turku-paraphrase-corpus
- 数据集论文: https://aclanthology.org/2021.nodalida-main.29/
- 数据集联系人: Jenna Kanerva, Filip Ginter
- 数据集联系邮箱: jmnybl@utu.fi, figint@utu.fi
数据集许可证
- 许可证类型: CC-BY-SA-4.0
- 许可证描述: 创意共享署名-相同方式共享4.0国际许可
数据集来源
- 数据来源类型: 学术
- 数据来源机构: University of Turku
- 数据来源详情: 数据集主要来源于电影和电视系列字幕、新闻文章、讨论论坛消息、大学翻译练习、课程论文和考试。
数据集注释
- 注释创建者: 专家创建
- 注释质量控制: 部分双注释,通过定期分配双注释批次来监控注释一致性。
数据集资金
- 资金来源: 芬兰科学院、欧洲语言网格项目
数据集在GEM中的角色
- 数据集在GEM中的贡献: 提供大量高质量(手动收集和验证)的芬兰语释义。
- 数据集在GEM中的修改: 数据结构略有简化,提供两种任务(释义分类和生成)的预处理数据。
数据集示例
json { gem_id: gem-turku_paraphrase_corpus-train-15, goeswith: episode-02243, fold: 0, text1: Mitä merkitystä sillä on?, text2: Mitä väliä sillä edes on?, label: 4, binary_label: positive, is_rewrite: False }



