sentence-transformers/parallel-sentences-news-commentary
收藏Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-news-commentary
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的平行句子对(即英语句子+相同句子的其他语言版本)。大多数句子来源于OPUS网站,特别是News-Commentary数据集。数据集可用于训练多语言句子嵌入模型。
This dataset contains parallel sentences (i.e. English sentence + the same sentences in another language) for numerous other languages. Most of the sentences originate from the OPUS website, particularly the News-Commentary dataset. The dataset can be used to train multilingual sentence embedding models.
提供机构:
sentence-transformers
原始信息汇总
数据集概述:News-Commentary
数据集基本信息
- 名称: News-Commentary
- 语言: 多语言,包括英语、阿拉伯语、捷克语、德语、西班牙语、法语、意大利语、日语、荷兰语、葡萄牙语、俄语等。
- 大小: 100K<n<1M
- 任务类别: 特征提取、句子相似度
- 标签: sentence-transformers
数据集配置与特征
配置 all
- 特征:
english: 字符串类型non_english: 字符串类型
- 分割:
train:- 示例数量: 972552
- 数据大小: 364506039字节
- 下载大小: 212877098字节
配置 en-ar 至 en-ru
- 特征:
english: 字符串类型non_english: 字符串类型
- 分割:
train:- 示例数量与数据大小各不相同,具体如下:
en-ar: 160944示例,92586042字节en-cs: 170683示例,49880143字节en-de: 214971示例,67264401字节en-es: 34352示例,10885552字节en-fr: 106040示例,34229410字节en-it: 45791示例,14672830字节en-ja: 1253示例,541819字节en-nl: 22890示例,7209024字节en-pt: 29077示例,9170349字节en-ru: 183413示例,77891207字节
- 下载大小与数据大小相对应。
- 示例数量与数据大小各不相同,具体如下:
数据集文件配置
- 配置:
all,en-ar至en-ru - 数据文件:
train: 路径格式为<config_name>/train-*,例如en-ar/train-*。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个多语言平行句子数据集,专门用于训练句子嵌入模型,包含约97.3万行新闻评论的英语句子及其对应多种语言的翻译。数据集以Parquet格式存储,涵盖英语、阿拉伯语、德语等超过10种语言,支持跨语言文本相似性和特征提取任务。
以上内容由遇见数据集搜集并总结生成



