five

sentence-transformers/parallel-sentences-news-commentary

收藏
Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-news-commentary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的平行句子对(即英语句子+相同句子的其他语言版本)。大多数句子来源于OPUS网站,特别是News-Commentary数据集。数据集可用于训练多语言句子嵌入模型。

This dataset contains parallel sentences (i.e. English sentence + the same sentences in another language) for numerous other languages. Most of the sentences originate from the OPUS website, particularly the News-Commentary dataset. The dataset can be used to train multilingual sentence embedding models.
提供机构:
sentence-transformers
原始信息汇总

数据集概述:News-Commentary

数据集基本信息

  • 名称: News-Commentary
  • 语言: 多语言,包括英语、阿拉伯语、捷克语、德语、西班牙语、法语、意大利语、日语、荷兰语、葡萄牙语、俄语等。
  • 大小: 100K<n<1M
  • 任务类别: 特征提取、句子相似度
  • 标签: sentence-transformers

数据集配置与特征

配置 all

  • 特征:
    • english: 字符串类型
    • non_english: 字符串类型
  • 分割:
    • train:
      • 示例数量: 972552
      • 数据大小: 364506039字节
      • 下载大小: 212877098字节

配置 en-aren-ru

  • 特征:
    • english: 字符串类型
    • non_english: 字符串类型
  • 分割:
    • train:
      • 示例数量与数据大小各不相同,具体如下:
        • en-ar: 160944示例,92586042字节
        • en-cs: 170683示例,49880143字节
        • en-de: 214971示例,67264401字节
        • en-es: 34352示例,10885552字节
        • en-fr: 106040示例,34229410字节
        • en-it: 45791示例,14672830字节
        • en-ja: 1253示例,541819字节
        • en-nl: 22890示例,7209024字节
        • en-pt: 29077示例,9170349字节
        • en-ru: 183413示例,77891207字节
      • 下载大小与数据大小相对应。

数据集文件配置

  • 配置: all, en-aren-ru
  • 数据文件:
    • train: 路径格式为 <config_name>/train-*,例如 en-ar/train-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个多语言平行句子数据集,专门用于训练句子嵌入模型,包含约97.3万行新闻评论的英语句子及其对应多种语言的翻译。数据集以Parquet格式存储,涵盖英语、阿拉伯语、德语等超过10种语言,支持跨语言文本相似性和特征提取任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作