five

tollefj/subtitles-en-no-similar-shorter

收藏
Hugging Face2023-08-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tollefj/subtitles-en-no-similar-shorter
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含361938个样本,这些样本是英语和挪威语的字幕/句子对,其中挪威语文本的长度不超过英语文本的60%。此外,这些句子通过挪威语SBERT模型进行过滤,确保相似度得分至少为0.7。该数据集的目的是评估生成模型在翻译和句子缩减联合操作上的表现。数据集分为训练集、测试集和验证集,分别包含253356、32575和76007个样本。
提供机构:
tollefj
原始信息汇总

数据集概述

数据集名称

Open Subtitles (EN-NO): similar and shorter parallels

数据集描述

该数据集包含361938个字幕/句子样本,其中挪威语平行文本的最大长度为英语文本的60%。此外,句子根据与挪威SBERT模型的相似度得分进行过滤,最小相似度为0.7(基于10k样本的观察)。该数据集旨在识别生成模型在翻译和句子缩减上的联合操作表现。

数据集配置

  • 默认配置
    • 训练集:路径为data/train-*
    • 测试集:路径为data/test-*
    • 验证集:路径为data/validation-*

数据集特征

  • 特征名称
    • en:数据类型为string
    • no:数据类型为string

数据集分割

分割名称 样本数量 字节数
train 253356 16980310.587072924
test 32575 2183226.832496173
validation 76007 5094106.580430903

数据集大小

  • 下载大小:17542044字节
  • 数据集大小:24257644字节

任务类别

  • 翻译
  • 摘要
  • 对话

语言

  • 英语 (en)
  • 挪威语 (no)

数据集别名

Open Subtitles (EN-NO), similar and shorter texts

数据集规模

100M < n < 1B

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作