five

GEM/opusparcus

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/opusparcus
下载链接
链接失效反馈
官方服务:
资源简介:
Opusparcus是一个包含六种欧洲语言(德语、英语、芬兰语、法语、俄语和瑞典语)的释义语料库,数据来源于电影和电视节目的字幕。数据集包括训练集、验证集和测试集,其中训练集是自动生成的,而验证集和测试集是手动标注的。数据集的主要任务是释义检测和生成,支持模型训练以确定两个句子是否具有相同的含义或生成给定句子的新释义。
提供机构:
GEM
原始信息汇总

数据集卡片 for GEM/opusparcus

数据集描述

  • 数据集名称: Opusparcus
  • 数据集概述: Opusparcus 是一个包含六种欧洲语言(德语、英语、芬兰语、法语、俄语和瑞典语)的释义语料库。这些释义来自电影和电视节目的字幕。
  • 语言: 德语、英语、芬兰语、法语、俄语、瑞典语
  • 许可证: cc-by-nc-4.0(Creative Commons Attribution Non Commercial 4.0 International)
  • 任务类别: 释义

数据集结构

数据字段

  • sent1: 一个标记化的句子
  • sent2: 另一个标记化的句子,可能是 sent1 的释义
  • annot_score: 一个介于 1.0 和 4.0 之间的值,表示 sent1sent2 作为释义的优劣程度
  • lang: 数据集的语言
  • gem_id: 该条目的唯一标识符

数据分割

数据集分为训练集、验证集和测试集。验证集和测试集有两种版本:常规集和完整集。完整集包含所有成功标注的句子对,包括被拒绝为释义的句子对。常规验证集和测试集仅包含被标注为释义的句子对。

train valid test valid.full test.full
de 0.59M .. 13M 1013 1047 1582 1586
en 1.0M .. 35M 1015 982 1455 1445
fi 0.48M .. 8.9M 963 958 1760 1749
fr 0.94M .. 22M 997 1007 1630 1674
ru 0.15M .. 15M 1020 1068 1854 1855
sv 0.24M .. 4.5M 984 947 1887 1901

示例实例

json { "annot_score": 4.0, "gem_id": "gem-opusparcus-test-1587", "lang": "en", "sent1": "I haven t been contacted by anybody .", "sent2": "Nobody s contacted me ." }

数据集在 GEM 中的应用

GEM 特定调整

  • GEM 版本修改:
  • 修改详情: 训练集已根据不同的“质量级别”(60% - 95%)进行准备。

先前结果

  • 测量模型能力: 句子意义
  • 常用指标: BLEU, BERT-Score, PINC
  • 先前结果可用性:
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作