sentence-transformers/parallel-sentences-jw300

Name: sentence-transformers/parallel-sentences-jw300
Creator: sentence-transformers
Published: 2024-06-18 19:45:32
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-jw300

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的平行句子（即英语句子与另一种语言的相同句子），这些句子主要来源于OPUS网站。特别是，该数据集包含了JW300数据集。数据集支持多种语言，并且包含多个子集，如`all`和`en-...`子集。每个子集都有特定的列和数据类型，以及示例和收集策略。此外，该数据集还与其他平行句子数据集相关，这些数据集可用于训练多语言句子嵌入模型。

提供机构：

sentence-transformers

原始信息汇总

数据集概述 - JW300

基本信息

数据集名称: JW300
语言支持: 支持多种语言，包括但不限于英语、阿拉伯语、保加利亚语、捷克语等。
数据集大小: 总数据量在10M到100M之间。
任务类别: 主要用于特征提取和句子相似性分析。
数据集别名: Pretty_name: JW300

数据结构

特征:
- english: 数据类型为字符串。
- non_english: 数据类型为字符串。

数据集分割

训练集:
- all配置:
  - 数据量: 47191903个例子
  - 存储大小: 10641041060字节
  - 下载大小: 6113892615字节
- en-xx配置:
  - 数据量: 每个子集从30万到200万不等
  - 存储大小: 每个子集从130239319字节到643264370字节不等
  - 下载大小: 每个子集从71709366字节到346889289字节不等