five

tollefj/massive-en-no-shorter-transfer

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tollefj/massive-en-no-shorter-transfer
下载链接
链接失效反馈
官方服务:
资源简介:
Massive EN-NO shorter transfer数据集是一个包含英语(EN)和挪威语(NO)翻译的数据集,数据来源于多个HuggingFace数据集,包括opus100、opus_books、open_subtitles和RuterNorway/Fleurs-Alpaca-EN-NO。数据集经过简单预处理、相似度计算和长度过滤等步骤,生成了一个更短且更相似的翻译语料库。预处理步骤包括去除/纠正错误的标点符号,使用NbAiLab/nb-sbert-base模型计算所有翻译对的相似度以对齐翻译,并过滤掉目标语言(挪威语)长度少于源语言(英语)长度70%的翻译对,除非翻译对中的单词数少于6个。
提供机构:
tollefj
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • en: 类型为字符串
    • no: 类型为字符串
  • 分割:
    • train: 字节数为44628652,样本数为758144
  • 下载大小: 33446436字节
  • 数据集大小: 44628652字节

配置

  • 配置名称: default
    • 数据文件:
      • train: 路径为data/train-*

许可

  • 许可: cc

任务类别

  • 任务类别:
    • 翻译
    • 摘要

语言

  • 语言:
    • no
    • nb
    • en

名称

  • 名称: Massive EN-NO shorter transfer

大小类别

  • 大小类别:
    • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作