sentence-transformers/parallel-sentences-news-commentary

Name: sentence-transformers/parallel-sentences-news-commentary
Creator: sentence-transformers
Published: 2024-06-18 19:45:37
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-news-commentary

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的平行句子对（即英语句子+相同句子的其他语言版本）。大多数句子来源于OPUS网站，特别是News-Commentary数据集。数据集可用于训练多语言句子嵌入模型。

This dataset contains parallel sentences (i.e. English sentence + the same sentences in another language) for numerous other languages. Most of the sentences originate from the OPUS website, particularly the News-Commentary dataset. The dataset can be used to train multilingual sentence embedding models.

提供机构：

sentence-transformers

原始信息汇总

数据集概述：News-Commentary

数据集基本信息

名称: News-Commentary
语言: 多语言，包括英语、阿拉伯语、捷克语、德语、西班牙语、法语、意大利语、日语、荷兰语、葡萄牙语、俄语等。
大小: 100K<n<1M
任务类别: 特征提取、句子相似度
标签: sentence-transformers

数据集配置与特征

配置 `all`

特征:
- english: 字符串类型
- non_english: 字符串类型
分割:
- train:
  - 示例数量: 972552
  - 数据大小: 364506039字节
  - 下载大小: 212877098字节

配置 `en-ar` 至 `en-ru`

特征:
- english: 字符串类型
- non_english: 字符串类型
分割:
- train:
  - 示例数量与数据大小各不相同，具体如下:
    - en-ar: 160944示例，92586042字节
    - en-cs: 170683示例，49880143字节
    - en-de: 214971示例，67264401字节
    - en-es: 34352示例，10885552字节
    - en-fr: 106040示例，34229410字节
    - en-it: 45791示例，14672830字节
    - en-ja: 1253示例，541819字节
    - en-nl: 22890示例，7209024字节
    - en-pt: 29077示例，9170349字节
    - en-ru: 183413示例，77891207字节
  - 下载大小与数据大小相对应。

数据集文件配置

配置: all, en-ar 至 en-ru
数据文件:
- train: 路径格式为 <config_name>/train-*，例如 en-ar/train-*。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个多语言平行句子数据集，专门用于训练句子嵌入模型，包含约97.3万行新闻评论的英语句子及其对应多种语言的翻译。数据集以Parquet格式存储，涵盖英语、阿拉伯语、德语等超过10种语言，支持跨语言文本相似性和特征提取任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集