cointegrated/ru-paraphrase-NMT-Leipzig
收藏Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cointegrated/ru-paraphrase-NMT-Leipzig
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为ru-paraphrase-NMT-Leipzig,包含100万条俄语句子和它们自动生成的释义。数据集通过将俄语文本翻译成英语,再翻译回俄语来生成释义。该数据集主要用于释义生成和检测任务,包含原始、释义、chrf_sim和labse_sim等字段来评估释义的质量。数据集是多语言的,以俄语为主,英语为辅助。
提供机构:
cointegrated
原始信息汇总
数据集概述
数据集基本信息
- 名称: ru-paraphrase-NMT-Leipzig
- 语言: 主要为俄语,辅助语言为英语
- 许可证: CC BY 4.0
- 多语言性: 翻译
- 大小: 100K<n<1M
- 任务类别: 文本生成
- 标签: 条件文本生成, 释义生成, 释义
数据集内容
- 概述: 包含100万条俄语句子和其自动生成的释义。
- 创建方法: 通过将原始句子翻译成英语,再翻译回俄语生成释义。
- 数据实例结构:
idx: 实例在原始语料库中的IDoriginal: 原始句子en: 原始句子的自动英译ru: 英译句子的自动俄译,即原始句子的释义chrf_sim: 原始句子与释义之间的ChrF++相似度labse_sim: 原始句子与释义之间的LaBSE嵌入余弦相似度
数据集结构
- 数据分割: 训练集980K,验证集10K,测试集10K
- 数据字段:
idx,original,en,ru,chrf_sim,labse_sim
数据集创建
- 来源数据: 来自Leipzig集合的
rus-ru_web-public_2019_1M语料库 - 自动释义过程: 使用facebook/wmt19-ru-en和facebook/wmt19-en-ru模型进行翻译
使用注意事项
- 潜在问题: 部分释义可能存在意义差异,如命名实体替换、词义变化等
- 数据过滤: 可使用
labse_sim字段过滤低质量释义
许可证与引用
- 许可证: CC BY 4.0
- 引用信息: 可通过引用此博客文章获取数据集详细信息
数据集创建者
- 创建者: David Dale (@cointegrated)



