tollefj/subtitles-en-no-similar-shorter

Name: tollefj/subtitles-en-no-similar-shorter
Creator: tollefj
Published: 2023-08-12 08:23:37
License: 暂无描述

Hugging Face2023-08-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tollefj/subtitles-en-no-similar-shorter

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含361938个样本，这些样本是英语和挪威语的字幕/句子对，其中挪威语文本的长度不超过英语文本的60%。此外，这些句子通过挪威语SBERT模型进行过滤，确保相似度得分至少为0.7。该数据集的目的是评估生成模型在翻译和句子缩减联合操作上的表现。数据集分为训练集、测试集和验证集，分别包含253356、32575和76007个样本。

提供机构：

tollefj

原始信息汇总

数据集概述

数据集名称

Open Subtitles (EN-NO): similar and shorter parallels

数据集描述

该数据集包含361938个字幕/句子样本，其中挪威语平行文本的最大长度为英语文本的60%。此外，句子根据与挪威SBERT模型的相似度得分进行过滤，最小相似度为0.7（基于10k样本的观察）。该数据集旨在识别生成模型在翻译和句子缩减上的联合操作表现。

数据集配置

默认配置：
- 训练集：路径为data/train-*
- 测试集：路径为data/test-*
- 验证集：路径为data/validation-*

数据集特征

特征名称：
- en：数据类型为string
- no：数据类型为string

数据集分割

分割名称	样本数量	字节数
train	253356	16980310.587072924
test	32575	2183226.832496173
validation	76007	5094106.580430903

数据集大小

下载大小：17542044字节
数据集大小：24257644字节

任务类别

翻译
摘要
对话

语言

英语 (en)
挪威语 (no)

数据集别名

Open Subtitles (EN-NO), similar and shorter texts

数据集规模

100M < n < 1B

5,000+

优质数据集

54 个

任务类型

进入经典数据集