sentence-transformers/parallel-sentences-europarl

Name: sentence-transformers/parallel-sentences-europarl
Creator: sentence-transformers
Published: 2024-06-18 19:45:06
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-europarl

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的平行句子（即英语句子+相同句子的其他语言版本），主要来源于OPUS网站。数据集包含多个子集，每个子集都有英语和另一种语言的句子对。数据集可以用于训练多语言句子嵌入模型。

提供机构：

sentence-transformers

原始信息汇总

all配置:
- 训练集: 包含25139999个例子，总字节数为8172178281。
- 下载大小: 4579962976字节。
- 数据集大小: 8172178281字节。
en-...配置:
- 训练集: 每个配置的训练集大小和例子数量不同，例如en-bg配置包含394924个例子，总字节数为173373239。
- 下载大小: 每个配置的下载大小也不同，例如en-bg配置的下载大小为84319064字节。
- 数据集大小: 每个配置的数据集大小与训练集字节数相同。

all配置示例: python { "english": "Membership of Parliament: see Minutes", "non_english": "Състав на Парламента: вж. протоколи" }
en-...配置示例: python { "english": "Resumption of the session", "non_english": "Reanudación del período de sesiones" }

5,000+

优质数据集

54 个

任务类型

进入经典数据集