five

sentence-transformers/parallel-sentences-europarl

收藏
Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-europarl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的平行句子(即英语句子+相同句子的其他语言版本),主要来源于OPUS网站。数据集包含多个子集,每个子集都有英语和另一种语言的句子对。数据集可以用于训练多语言句子嵌入模型。

该数据集包含多种语言的平行句子(即英语句子+相同句子的其他语言版本),主要来源于OPUS网站。数据集包含多个子集,每个子集都有英语和另一种语言的句子对。数据集可以用于训练多语言句子嵌入模型。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

基本信息

  • 名称: Europarl
  • 语言: 支持多种语言,包括英语、保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语等。
  • 大小: 数据集大小介于10M到100M之间。
  • 任务类别: 主要用于特征提取和句子相似度计算。

数据集结构

  • 特征:
    • english: 字符串类型,表示英语句子。
    • non_english: 字符串类型,表示其他语言的对应句子。

数据集配置

  • all配置:

    • 训练集: 包含25139999个例子,总字节数为8172178281。
    • 下载大小: 4579962976字节。
    • 数据集大小: 8172178281字节。
  • en-...配置:

    • 训练集: 每个配置的训练集大小和例子数量不同,例如en-bg配置包含394924个例子,总字节数为173373239。
    • 下载大小: 每个配置的下载大小也不同,例如en-bg配置的下载大小为84319064字节。
    • 数据集大小: 每个配置的数据集大小与训练集字节数相同。

数据集文件

  • 文件路径: 每个配置的训练数据文件路径遵循模式[语言代码]/train-*

数据集用途

  • 应用: 用于训练多语言句子嵌入模型。

数据集示例

  • all配置示例: python { "english": "Membership of Parliament: see Minutes", "non_english": "Състав на Парламента: вж. протоколи" }

  • en-...配置示例: python { "english": "Resumption of the session", "non_english": "Reanudación del período de sesiones" }

数据集处理

  • all配置: 未进行去重处理。
  • en-...配置: 数据经过格式化为Parquet文件,并进行了去重处理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作