sentence-transformers/parallel-sentences-jw300
收藏Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-jw300
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的平行句子(即英语句子与另一种语言的相同句子),这些句子主要来源于OPUS网站。特别是,该数据集包含了JW300数据集。数据集支持多种语言,并且包含多个子集,如`all`和`en-...`子集。每个子集都有特定的列和数据类型,以及示例和收集策略。此外,该数据集还与其他平行句子数据集相关,这些数据集可用于训练多语言句子嵌入模型。
该数据集包含多种语言的平行句子(即英语句子与另一种语言的相同句子),这些句子主要来源于OPUS网站。特别是,该数据集包含了JW300数据集。数据集支持多种语言,并且包含多个子集,如`all`和`en-...`子集。每个子集都有特定的列和数据类型,以及示例和收集策略。此外,该数据集还与其他平行句子数据集相关,这些数据集可用于训练多语言句子嵌入模型。
提供机构:
sentence-transformers
原始信息汇总
数据集概述 - JW300
基本信息
- 数据集名称: JW300
- 语言支持: 支持多种语言,包括但不限于英语、阿拉伯语、保加利亚语、捷克语等。
- 数据集大小: 总数据量在10M到100M之间。
- 任务类别: 主要用于特征提取和句子相似性分析。
- 数据集别名: Pretty_name: JW300
数据结构
- 特征:
- english: 数据类型为字符串。
- non_english: 数据类型为字符串。
数据集分割
- 训练集:
- all配置:
- 数据量: 47191903个例子
- 存储大小: 10641041060字节
- 下载大小: 6113892615字节
- en-xx配置:
- 数据量: 每个子集从30万到200万不等
- 存储大小: 每个子集从130239319字节到643264370字节不等
- 下载大小: 每个子集从71709366字节到346889289字节不等
- all配置:
配置详情
- all配置:
- 数据文件路径: all/train-*
- en-xx配置:
- 数据文件路径: 每个子集对应的路径,如en-ar/train-*
数据集用途
- 应用场景: 用于训练多语言句子嵌入模型。
- 相关资源: 参考sbert.net - Multilingual Models获取更多信息。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个多语言平行句对集合,包含英语与42种其他语言的句子对,总规模超过4700万行,适用于多语言句子嵌入模型的训练。
以上内容由遇见数据集搜集并总结生成



