fyaronskiy/ru-paraphrase-NMT-Leipzig-processed
收藏Hugging Face2024-07-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/fyaronskiy/ru-paraphrase-NMT-Leipzig-processed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过过滤David Dale的俄语释义数据集获得的,并保留了数据结构。删除了与源句子LABSE相似度小于0.75的释义、比源句子长2.5倍的释义以及与原始文本拼写相似的释义。源数据集中包含的英语释义已被翻译成俄语。该数据集可用于训练和评估释义生成模型或(如果使用负采样)释义检测模型。
该数据集是通过过滤David Dale的俄语释义数据集获得的,并保留了数据结构。删除了与源句子LABSE相似度小于0.75的释义、比源句子长2.5倍的释义以及与原始文本拼写相似的释义。源数据集中包含的英语释义已被翻译成俄语。该数据集可用于训练和评估释义生成模型或(如果使用负采样)释义检测模型。
提供机构:
fyaronskiy
原始信息汇总
数据集概述
数据集特征
- idx: 整数类型
- original: 字符串类型
- en: 字符串类型
- ru: 字符串类型
- chrf_sim: 浮点数类型
- labse_sim: 浮点数类型
- forward_entailment: 浮点数类型
- backward_entailment: 浮点数类型
- p_good: 浮点数类型
- len_tokens: 整数类型
数据集分割
- train: 936931个样本,488921889字节
- val: 9568个样本,4988702字节
- test: 9524个样本,5004482字节
数据集大小
- 下载大小: 323982865字节
- 数据集大小: 498915073字节
配置文件
- default: 包含训练、验证和测试数据的路径配置
任务类别
- 文本生成
语言
- 俄语
标签
- 释义生成
- 释义
大小类别
- 100K<n<1M
数据集来源与处理
- 数据集来源于David Dale的俄语释义数据集,经过自动指标过滤。
- 删除标准:
- LABSE相似度低于0.75的释义
- 长度超过源句子2.5倍的释义
- ChrF++相似度大于0.6且包含15个以上令牌的释义
- 原数据集中的英文释义已翻译成俄语。
支持的任务
- 释义生成
- 释义检测(使用负采样)



