tollefj/subtitles-en-no-similar-shorter
收藏Hugging Face2023-08-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tollefj/subtitles-en-no-similar-shorter
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含361938个样本,这些样本是英语和挪威语的字幕/句子对,其中挪威语文本的长度不超过英语文本的60%。此外,这些句子通过挪威语SBERT模型进行过滤,确保相似度得分至少为0.7。该数据集的目的是评估生成模型在翻译和句子缩减联合操作上的表现。数据集分为训练集、测试集和验证集,分别包含253356、32575和76007个样本。
提供机构:
tollefj
原始信息汇总
数据集概述
数据集名称
Open Subtitles (EN-NO): similar and shorter parallels
数据集描述
该数据集包含361938个字幕/句子样本,其中挪威语平行文本的最大长度为英语文本的60%。此外,句子根据与挪威SBERT模型的相似度得分进行过滤,最小相似度为0.7(基于10k样本的观察)。该数据集旨在识别生成模型在翻译和句子缩减上的联合操作表现。
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 测试集:路径为
data/test-* - 验证集:路径为
data/validation-*
- 训练集:路径为
数据集特征
- 特征名称:
en:数据类型为stringno:数据类型为string
数据集分割
| 分割名称 | 样本数量 | 字节数 |
|---|---|---|
| train | 253356 | 16980310.587072924 |
| test | 32575 | 2183226.832496173 |
| validation | 76007 | 5094106.580430903 |
数据集大小
- 下载大小:17542044字节
- 数据集大小:24257644字节
任务类别
- 翻译
- 摘要
- 对话
语言
- 英语 (en)
- 挪威语 (no)
数据集别名
Open Subtitles (EN-NO), similar and shorter texts
数据集规模
100M < n < 1B



