sentence-transformers/parallel-sentences-opensubtitles
收藏Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-opensubtitles
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的平行句子(即英语句子+其他语言的相同句子),主要来源于OPUS网站。数据集的质量可能不高,许多英语和非英语文本不匹配或为空。数据集分为多个子集,包括一个包含所有语言的`all`子集和多个特定语言对的`en-...`子集。每个子集包含两列:`english`和`non_english`,均为字符串类型。数据集可用于训练多语言句子嵌入模型。
该数据集包含多种语言的平行句子(即英语句子+其他语言的相同句子),主要来源于OPUS网站。数据集的质量可能不高,许多英语和非英语文本不匹配或为空。数据集分为多个子集,包括一个包含所有语言的`all`子集和多个特定语言对的`en-...`子集。每个子集包含两列:`english`和`non_english`,均为字符串类型。数据集可用于训练多语言句子嵌入模型。
提供机构:
sentence-transformers
原始信息汇总
数据集概述 - OpenSubtitles
基本信息
- 名称: OpenSubtitles
- 语言: 多语言,包括英语、阿拉伯语、保加利亚语等40多种语言
- 大小: 100M<n<1B
- 任务类别: 特征提取、句子相似度
- 标签: sentence-transformers
数据集结构
特征
- english: 字符串类型
- non_english: 字符串类型
分割
- train:
- num_bytes: 不同语言配置下的字节数不同,范围从254083到1245518887
- num_examples: 不同语言配置下的示例数不同,范围从2777到15692685
配置
- all: 包含所有语言的数据
- en-...: 特定语言对(如en-ar, en-bg等)的数据
数据集大小
- 下载大小: 不同配置下的下载大小不同,范围从151810到854180494
- 数据集大小: 不同配置下的数据集大小不同,范围从254083到1245518887
数据集用途
- 用于训练多语言句子嵌入模型
数据集质量警告
- 数据集质量不一,部分英文和非英文文本匹配不佳或完全为空。



