five

cointegrated/ru-paraphrase-NMT-Leipzig

收藏
Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cointegrated/ru-paraphrase-NMT-Leipzig
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为ru-paraphrase-NMT-Leipzig,包含100万条俄语句子和它们自动生成的释义。数据集通过将俄语文本翻译成英语,再翻译回俄语来生成释义。该数据集主要用于释义生成和检测任务,包含原始、释义、chrf_sim和labse_sim等字段来评估释义的质量。数据集是多语言的,以俄语为主,英语为辅助。
提供机构:
cointegrated
原始信息汇总

数据集概述

数据集基本信息

  • 名称: ru-paraphrase-NMT-Leipzig
  • 语言: 主要为俄语,辅助语言为英语
  • 许可证: CC BY 4.0
  • 多语言性: 翻译
  • 大小: 100K<n<1M
  • 任务类别: 文本生成
  • 标签: 条件文本生成, 释义生成, 释义

数据集内容

  • 概述: 包含100万条俄语句子和其自动生成的释义。
  • 创建方法: 通过将原始句子翻译成英语,再翻译回俄语生成释义。
  • 数据实例结构:
    • idx: 实例在原始语料库中的ID
    • original: 原始句子
    • en: 原始句子的自动英译
    • ru: 英译句子的自动俄译,即原始句子的释义
    • chrf_sim: 原始句子与释义之间的ChrF++相似度
    • labse_sim: 原始句子与释义之间的LaBSE嵌入余弦相似度

数据集结构

  • 数据分割: 训练集980K,验证集10K,测试集10K
  • 数据字段:
    • idx, original, en, ru, chrf_sim, labse_sim

数据集创建

使用注意事项

  • 潜在问题: 部分释义可能存在意义差异,如命名实体替换、词义变化等
  • 数据过滤: 可使用labse_sim字段过滤低质量释义

许可证与引用

  • 许可证: CC BY 4.0
  • 引用信息: 可通过引用此博客文章获取数据集详细信息

数据集创建者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作