sentence-transformers/parallel-sentences-opensubtitles

Name: sentence-transformers/parallel-sentences-opensubtitles
Creator: sentence-transformers
Published: 2024-06-18 19:45:43
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-opensubtitles

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的平行句子（即英语句子+其他语言的相同句子），主要来源于OPUS网站。数据集的质量可能不高，许多英语和非英语文本不匹配或为空。数据集分为多个子集，包括一个包含所有语言的`all`子集和多个特定语言对的`en-...`子集。每个子集包含两列：`english`和`non_english`，均为字符串类型。数据集可用于训练多语言句子嵌入模型。

提供机构：

sentence-transformers

原始信息汇总

数据集概述 - OpenSubtitles

基本信息

名称: OpenSubtitles
语言: 多语言，包括英语、阿拉伯语、保加利亚语等40多种语言
大小: 100M<n<1B
任务类别: 特征提取、句子相似度
标签: sentence-transformers

数据集结构

特征

english: 字符串类型
non_english: 字符串类型

分割

train:
- num_bytes: 不同语言配置下的字节数不同，范围从254083到1245518887
- num_examples: 不同语言配置下的示例数不同，范围从2777到15692685

配置

all: 包含所有语言的数据
en-...: 特定语言对（如en-ar, en-bg等）的数据

数据集大小

下载大小: 不同配置下的下载大小不同，范围从151810到854180494
数据集大小: 不同配置下的数据集大小不同，范围从254083到1245518887

数据集用途

用于训练多语言句子嵌入模型

数据集质量警告

数据集质量不一，部分英文和非英文文本匹配不佳或完全为空。

5,000+

优质数据集

54 个

任务类型

进入经典数据集