five

fyaronskiy/ru-paraphrase-NMT-Leipzig-processed

收藏
Hugging Face2024-07-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/fyaronskiy/ru-paraphrase-NMT-Leipzig-processed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过过滤David Dale的俄语释义数据集获得的,并保留了数据结构。删除了与源句子LABSE相似度小于0.75的释义、比源句子长2.5倍的释义以及与原始文本拼写相似的释义。源数据集中包含的英语释义已被翻译成俄语。该数据集可用于训练和评估释义生成模型或(如果使用负采样)释义检测模型。

该数据集是通过过滤David Dale的俄语释义数据集获得的,并保留了数据结构。删除了与源句子LABSE相似度小于0.75的释义、比源句子长2.5倍的释义以及与原始文本拼写相似的释义。源数据集中包含的英语释义已被翻译成俄语。该数据集可用于训练和评估释义生成模型或(如果使用负采样)释义检测模型。
提供机构:
fyaronskiy
原始信息汇总

数据集概述

数据集特征

  • idx: 整数类型
  • original: 字符串类型
  • en: 字符串类型
  • ru: 字符串类型
  • chrf_sim: 浮点数类型
  • labse_sim: 浮点数类型
  • forward_entailment: 浮点数类型
  • backward_entailment: 浮点数类型
  • p_good: 浮点数类型
  • len_tokens: 整数类型

数据集分割

  • train: 936931个样本,488921889字节
  • val: 9568个样本,4988702字节
  • test: 9524个样本,5004482字节

数据集大小

  • 下载大小: 323982865字节
  • 数据集大小: 498915073字节

配置文件

  • default: 包含训练、验证和测试数据的路径配置

任务类别

  • 文本生成

语言

  • 俄语

标签

  • 释义生成
  • 释义

大小类别

  • 100K<n<1M

数据集来源与处理

  • 数据集来源于David Dale的俄语释义数据集,经过自动指标过滤。
  • 删除标准:
    • LABSE相似度低于0.75的释义
    • 长度超过源句子2.5倍的释义
    • ChrF++相似度大于0.6且包含15个以上令牌的释义
  • 原数据集中的英文释义已翻译成俄语。

支持的任务

  • 释义生成
  • 释义检测(使用负采样)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作