five

sentence-transformers/parallel-sentences-jw300

收藏
Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-jw300
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的平行句子(即英语句子与另一种语言的相同句子),这些句子主要来源于OPUS网站。特别是,该数据集包含了JW300数据集。数据集支持多种语言,并且包含多个子集,如`all`和`en-...`子集。每个子集都有特定的列和数据类型,以及示例和收集策略。此外,该数据集还与其他平行句子数据集相关,这些数据集可用于训练多语言句子嵌入模型。

该数据集包含多种语言的平行句子(即英语句子与另一种语言的相同句子),这些句子主要来源于OPUS网站。特别是,该数据集包含了JW300数据集。数据集支持多种语言,并且包含多个子集,如`all`和`en-...`子集。每个子集都有特定的列和数据类型,以及示例和收集策略。此外,该数据集还与其他平行句子数据集相关,这些数据集可用于训练多语言句子嵌入模型。
提供机构:
sentence-transformers
原始信息汇总

数据集概述 - JW300

基本信息

  • 数据集名称: JW300
  • 语言支持: 支持多种语言,包括但不限于英语、阿拉伯语、保加利亚语、捷克语等。
  • 数据集大小: 总数据量在10M到100M之间。
  • 任务类别: 主要用于特征提取和句子相似性分析。
  • 数据集别名: Pretty_name: JW300

数据结构

  • 特征:
    • english: 数据类型为字符串。
    • non_english: 数据类型为字符串。

数据集分割

  • 训练集:
    • all配置:
      • 数据量: 47191903个例子
      • 存储大小: 10641041060字节
      • 下载大小: 6113892615字节
    • en-xx配置:
      • 数据量: 每个子集从30万到200万不等
      • 存储大小: 每个子集从130239319字节到643264370字节不等
      • 下载大小: 每个子集从71709366字节到346889289字节不等

配置详情

  • all配置:
    • 数据文件路径: all/train-*
  • en-xx配置:
    • 数据文件路径: 每个子集对应的路径,如en-ar/train-*

数据集用途

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个多语言平行句对集合,包含英语与42种其他语言的句子对,总规模超过4700万行,适用于多语言句子嵌入模型的训练。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作