sentence-transformers/parallel-sentences-europarl
收藏Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-europarl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的平行句子(即英语句子+相同句子的其他语言版本),主要来源于OPUS网站。数据集包含多个子集,每个子集都有英语和另一种语言的句子对。数据集可以用于训练多语言句子嵌入模型。
该数据集包含多种语言的平行句子(即英语句子+相同句子的其他语言版本),主要来源于OPUS网站。数据集包含多个子集,每个子集都有英语和另一种语言的句子对。数据集可以用于训练多语言句子嵌入模型。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
基本信息
- 名称: Europarl
- 语言: 支持多种语言,包括英语、保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语等。
- 大小: 数据集大小介于10M到100M之间。
- 任务类别: 主要用于特征提取和句子相似度计算。
数据集结构
- 特征:
- english: 字符串类型,表示英语句子。
- non_english: 字符串类型,表示其他语言的对应句子。
数据集配置
-
all配置:
- 训练集: 包含25139999个例子,总字节数为8172178281。
- 下载大小: 4579962976字节。
- 数据集大小: 8172178281字节。
-
en-...配置:
- 训练集: 每个配置的训练集大小和例子数量不同,例如
en-bg配置包含394924个例子,总字节数为173373239。 - 下载大小: 每个配置的下载大小也不同,例如
en-bg配置的下载大小为84319064字节。 - 数据集大小: 每个配置的数据集大小与训练集字节数相同。
- 训练集: 每个配置的训练集大小和例子数量不同,例如
数据集文件
- 文件路径: 每个配置的训练数据文件路径遵循模式
[语言代码]/train-*。
数据集用途
- 应用: 用于训练多语言句子嵌入模型。
数据集示例
-
all配置示例: python { "english": "Membership of Parliament: see Minutes", "non_english": "Състав на Парламента: вж. протоколи" }
-
en-...配置示例: python { "english": "Resumption of the session", "non_english": "Reanudación del período de sesiones" }
数据集处理
- all配置: 未进行去重处理。
- en-...配置: 数据经过格式化为Parquet文件,并进行了去重处理。



