GEM/opusparcus
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/opusparcus
下载链接
链接失效反馈官方服务:
资源简介:
Opusparcus是一个包含六种欧洲语言(德语、英语、芬兰语、法语、俄语和瑞典语)的释义语料库,数据来源于电影和电视节目的字幕。数据集包括训练集、验证集和测试集,其中训练集是自动生成的,而验证集和测试集是手动标注的。数据集的主要任务是释义检测和生成,支持模型训练以确定两个句子是否具有相同的含义或生成给定句子的新释义。
提供机构:
GEM
原始信息汇总
数据集卡片 for GEM/opusparcus
数据集描述
- 数据集名称: Opusparcus
- 数据集概述: Opusparcus 是一个包含六种欧洲语言(德语、英语、芬兰语、法语、俄语和瑞典语)的释义语料库。这些释义来自电影和电视节目的字幕。
- 语言: 德语、英语、芬兰语、法语、俄语、瑞典语
- 许可证: cc-by-nc-4.0(Creative Commons Attribution Non Commercial 4.0 International)
- 任务类别: 释义
数据集结构
数据字段
sent1: 一个标记化的句子sent2: 另一个标记化的句子,可能是sent1的释义annot_score: 一个介于 1.0 和 4.0 之间的值,表示sent1和sent2作为释义的优劣程度lang: 数据集的语言gem_id: 该条目的唯一标识符
数据分割
数据集分为训练集、验证集和测试集。验证集和测试集有两种版本:常规集和完整集。完整集包含所有成功标注的句子对,包括被拒绝为释义的句子对。常规验证集和测试集仅包含被标注为释义的句子对。
| train | valid | test | valid.full | test.full | |
|---|---|---|---|---|---|
| de | 0.59M .. 13M | 1013 | 1047 | 1582 | 1586 |
| en | 1.0M .. 35M | 1015 | 982 | 1455 | 1445 |
| fi | 0.48M .. 8.9M | 963 | 958 | 1760 | 1749 |
| fr | 0.94M .. 22M | 997 | 1007 | 1630 | 1674 |
| ru | 0.15M .. 15M | 1020 | 1068 | 1854 | 1855 |
| sv | 0.24M .. 4.5M | 984 | 947 | 1887 | 1901 |
示例实例
json { "annot_score": 4.0, "gem_id": "gem-opusparcus-test-1587", "lang": "en", "sent1": "I haven t been contacted by anybody .", "sent2": "Nobody s contacted me ." }
数据集在 GEM 中的应用
GEM 特定调整
- GEM 版本修改: 是
- 修改详情: 训练集已根据不同的“质量级别”(60% - 95%)进行准备。
先前结果
- 测量模型能力: 句子意义
- 常用指标:
BLEU,BERT-Score,PINC - 先前结果可用性: 是



