five

sentence-transformers/parallel-sentences-opensubtitles

收藏
Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-opensubtitles
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的平行句子(即英语句子+其他语言的相同句子),主要来源于OPUS网站。数据集的质量可能不高,许多英语和非英语文本不匹配或为空。数据集分为多个子集,包括一个包含所有语言的`all`子集和多个特定语言对的`en-...`子集。每个子集包含两列:`english`和`non_english`,均为字符串类型。数据集可用于训练多语言句子嵌入模型。

该数据集包含多种语言的平行句子(即英语句子+其他语言的相同句子),主要来源于OPUS网站。数据集的质量可能不高,许多英语和非英语文本不匹配或为空。数据集分为多个子集,包括一个包含所有语言的`all`子集和多个特定语言对的`en-...`子集。每个子集包含两列:`english`和`non_english`,均为字符串类型。数据集可用于训练多语言句子嵌入模型。
提供机构:
sentence-transformers
原始信息汇总

数据集概述 - OpenSubtitles

基本信息

  • 名称: OpenSubtitles
  • 语言: 多语言,包括英语、阿拉伯语、保加利亚语等40多种语言
  • 大小: 100M<n<1B
  • 任务类别: 特征提取、句子相似度
  • 标签: sentence-transformers

数据集结构

特征

  • english: 字符串类型
  • non_english: 字符串类型

分割

  • train:
    • num_bytes: 不同语言配置下的字节数不同,范围从254083到1245518887
    • num_examples: 不同语言配置下的示例数不同,范围从2777到15692685

配置

  • all: 包含所有语言的数据
  • en-...: 特定语言对(如en-ar, en-bg等)的数据

数据集大小

  • 下载大小: 不同配置下的下载大小不同,范围从151810到854180494
  • 数据集大小: 不同配置下的数据集大小不同,范围从254083到1245518887

数据集用途

  • 用于训练多语言句子嵌入模型

数据集质量警告

  • 数据集质量不一,部分英文和非英文文本匹配不佳或完全为空。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作