cointegrated/ru-paraphrase-NMT-Leipzig

Name: cointegrated/ru-paraphrase-NMT-Leipzig
Creator: cointegrated
Published: 2022-10-23 12:23:15
License: 暂无描述

Hugging Face2022-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cointegrated/ru-paraphrase-NMT-Leipzig

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为ru-paraphrase-NMT-Leipzig，包含100万条俄语句子和它们自动生成的释义。数据集通过将俄语文本翻译成英语，再翻译回俄语来生成释义。该数据集主要用于释义生成和检测任务，包含原始、释义、chrf_sim和labse_sim等字段来评估释义的质量。数据集是多语言的，以俄语为主，英语为辅助。

提供机构：

cointegrated

原始信息汇总

数据集概述

数据集基本信息

名称: ru-paraphrase-NMT-Leipzig
语言: 主要为俄语，辅助语言为英语
许可证: CC BY 4.0
多语言性: 翻译
大小: 100K<n<1M
任务类别: 文本生成
标签: 条件文本生成, 释义生成, 释义

数据集内容

概述: 包含100万条俄语句子和其自动生成的释义。
创建方法: 通过将原始句子翻译成英语，再翻译回俄语生成释义。
数据实例结构:
- idx: 实例在原始语料库中的ID
- original: 原始句子
- en: 原始句子的自动英译
- ru: 英译句子的自动俄译，即原始句子的释义
- chrf_sim: 原始句子与释义之间的ChrF++相似度
- labse_sim: 原始句子与释义之间的LaBSE嵌入余弦相似度

数据集结构

数据分割: 训练集980K，验证集10K，测试集10K
数据字段:
- idx, original, en, ru, chrf_sim, labse_sim

数据集创建

来源数据: 来自Leipzig集合的rus-ru_web-public_2019_1M语料库
自动释义过程: 使用facebook/wmt19-ru-en和facebook/wmt19-en-ru模型进行翻译

使用注意事项

潜在问题: 部分释义可能存在意义差异，如命名实体替换、词义变化等
数据过滤: 可使用labse_sim字段过滤低质量释义

许可证与引用

许可证: CC BY 4.0
引用信息: 可通过引用此博客文章获取数据集详细信息

数据集创建者

创建者: David Dale (@cointegrated)

5,000+

优质数据集

54 个

任务类型

进入经典数据集