five

sentence-transformers/parallel-sentences-talks

收藏
Hugging Face2024-06-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-talks
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Talks,是一个多语言数据集,适用于特征提取和句子相似性等任务。数据集包含多种语言,规模在100万到1000万条之间。数据集按语言对(如英语-阿拉伯语、英语-保加利亚语等)分为多个配置,每个配置包含训练集和开发集。数据集的字段包括english和non_english,均为字符串类型。数据集还标记为sentence-transformers,表明其与句子嵌入任务相关。

The dataset, named Talks, is a multilingual dataset suitable for tasks such as feature extraction and sentence similarity. It includes a wide range of languages and has a size ranging between 1 million and 10 million entries. The dataset is divided into multiple configurations, each corresponding to a pair of languages (e.g., English-Arabic, English-Bulgarian, etc.), with each configuration containing training and development splits. The features of the dataset include english and non_english text fields, both of which are of string type. The dataset is also tagged with sentence-transformers, indicating its relevance to tasks involving sentence embeddings.
提供机构:
sentence-transformers
原始信息汇总

数据集概述

语言支持

  • 英语 (en)
  • 多语言 (multilingual)
  • 阿拉伯语 (ar)
  • 保加利亚语 (bg)
  • 加泰罗尼亚语 (ca)
  • 捷克语 (cs)
  • 丹麦语 (da)
  • 德语 (de)
  • 希腊语 (el)
  • 西班牙语 (es)
  • 爱沙尼亚语 (et)
  • 波斯语 (fa)
  • 芬兰语 (fi)
  • 法语 (fr)
  • 加利西亚语 (gl)
  • 古吉拉特语 (gu)
  • 希伯来语 (he)
  • 印地语 (hi)
  • 克罗地亚语 (hr)
  • 匈牙利语 (hu)
  • 亚美尼亚语 (hy)
  • 印度尼西亚语 (id)
  • 意大利语 (it)
  • 日语 (ja)
  • 格鲁吉亚语 (ka)
  • 韩语 (ko)
  • 库尔德语 (ku)
  • 立陶宛语 (lt)
  • 拉脱维亚语 (lv)
  • 马其顿语 (mk)
  • 蒙古语 (mn)
  • 马拉地语 (mr)
  • 马来语 (ms)
  • 缅甸语 (my)
  • 挪威语 (nb)
  • 荷兰语 (nl)
  • 波兰语 (pl)
  • 葡萄牙语 (pt)
  • 罗马尼亚语 (ro)
  • 俄语 (ru)
  • 斯洛伐克语 (sk)
  • 斯洛文尼亚语 (sl)
  • 阿尔巴尼亚语 (sq)
  • 塞尔维亚语 (sr)
  • 瑞典语 (sv)
  • 泰语 (th)
  • 土耳其语 (tr)
  • 乌克兰语 (uk)
  • 乌尔都语 (ur)
  • 越南语 (vi)
  • 中文 (zh)

数据集大小分类

  • 1M<n<10M

任务分类

  • 特征提取 (feature-extraction)
  • 句子相似度 (sentence-similarity)

数据集配置

  • config_name: all

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • train: 2172442927 bytes, 9750031 examples
      • dev: 12276835 bytes, 51648 examples
    • 下载大小: 1303862376 bytes
    • 数据集大小: 2184719762 bytes
  • config_name: en-ar

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 261721 bytes, 993 examples
      • train: 97535431 bytes, 396981 examples
    • 下载大小: 55634048 bytes
    • 数据集大小: 97797152 bytes
  • config_name: en-bg

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 290309 bytes, 994 examples
      • train: 65957827 bytes, 242950 examples
    • 下载大小: 35825942 bytes
    • 数据集大小: 66248136 bytes
  • config_name: en-ca

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 186792 bytes, 996 examples
      • train: 9911322 bytes, 50409 examples
    • 下载大小: 6372205 bytes
    • 数据集大小: 10098114 bytes
  • config_name: en-cs

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 199962 bytes, 994 examples
      • train: 32452873 bytes, 165674 examples
    • 下载大小: 21238718 bytes
    • 数据集大小: 32652835 bytes
  • config_name: en-da

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 186373 bytes, 998 examples
      • train: 13497127 bytes, 69508 examples
    • 下载大小: 8501193 bytes
    • 数据集大小: 13683500 bytes
  • config_name: en-de

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 223167 bytes, 991 examples
      • train: 59688681 bytes, 288394 examples
    • 下载大小: 37399211 bytes
    • 数据集大小: 59911848 bytes
  • config_name: en-el

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 303401 bytes, 993 examples
      • train: 75746398 bytes, 261683 examples
    • 下载大小: 41103150 bytes
    • 数据集大小: 76049799 bytes
  • config_name: en-es

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 214497 bytes, 990 examples
      • train: 82723117 bytes, 404981 examples
    • 下载大小: 51812756 bytes
    • 数据集大小: 82937614 bytes
  • config_name: en-et

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 190503 bytes, 994 examples
      • train: 4153466 bytes, 21998 examples
    • 下载大小: 2812858 bytes
    • 数据集大小: 4343969 bytes
  • config_name: en-fa

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 292937 bytes, 992 examples
      • train: 80139316 bytes, 296494 examples
    • 下载大小: 42908525 bytes
    • 数据集大小: 80432253 bytes
  • config_name: en-fi

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 181241 bytes, 992 examples
      • train: 8093532 bytes, 42571 examples
    • 下载大小: 5278857 bytes
    • 数据集大小: 8274773 bytes
  • config_name: en-fr

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • train: 84492902 bytes, 398870 examples
      • dev: 226424 bytes, 992 examples
    • 下载大小: 52180856 bytes
    • 数据集大小: 84719326 bytes
  • config_name: en-fr-ca

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • train: 6405861 bytes, 31658 examples
      • dev: 203685 bytes, 997 examples
    • 下载大小: 4082782 bytes
    • 数据集大小: 6609546 bytes
  • config_name: en-gl

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 184121 bytes, 990 examples
      • train: 6380909 bytes, 32589 examples
    • 下载大小: 4115393 bytes
    • 数据集大小: 6565030 bytes
  • config_name: en-gu

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 294688 bytes, 992 examples
      • train: 4750909 bytes, 14583 examples
    • 下载大小: 2382250 bytes
    • 数据集大小: 5045597 bytes
  • config_name: en-he

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 244494 bytes, 993 examples
      • train: 79884584 bytes, 342553 examples
    • 下载大小: 45550473 bytes
    • 数据集大小: 80129078 bytes
  • config_name: en-hi

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 317741 bytes, 1000 examples
      • train: 14457337 bytes, 45403 examples
    • 下载大小: 6954868 bytes
    • 数据集大小: 14775078 bytes
  • config_name: en-hr

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 199848 bytes, 991 examples
      • train: 36828927 bytes, 191432 examples
    • 下载大小: 24154612 bytes
    • 数据集大小: 37028775 bytes
  • config_name: en-hu

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 216539 bytes, 993 examples
      • train: 61139948 bytes, 299703 examples
    • 下载大小: 39374876 bytes
    • 数据集大小: 61356487 bytes
  • config_name: en-hy

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 277006 bytes, 990 examples
      • train: 9377389 bytes, 35267 examples
    • 下载大小: 5196179 bytes
    • 数据集大小: 9654395 bytes
  • config_name: en-id

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 222842 bytes, 991 examples
      • train: 32257497 bytes, 159834 examples
    • 下载大小: 19306101 bytes
    • 数据集大小: 32480339 bytes
  • config_name: en-it

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 218769 bytes, 993 examples
      • train: 73809891 bytes, 362809 examples
    • 下载大小: 46527761 bytes
    • 数据集大小: 74028660 bytes
  • config_name: en-ja

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 233733 bytes, 992 examples
      • train: 77824312 bytes, 357225 examples
    • 下载大小: 46914912 bytes
    • 数据集大小: 78058045 bytes
  • config_name: en-ka

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 312500 bytes, 996 examples
      • train: 9055108 bytes, 26725 examples
    • 下载大小: 4185942 bytes
    • 数据集大小: 9367608 bytes
  • config_name: en-ko

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 240101 bytes, 991 examples
      • train: 87346962 bytes, 388942 examples
    • 下载大小: 52669151 bytes
    • 数据集大小: 87587063 bytes
  • config_name: en-ku

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 259363 bytes, 998 examples
      • train: 15291465 bytes, 55897 examples
    • 下载大小: 8336981 bytes
    • 数据集大小: 15550828 bytes
  • config_name: en-lt

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 179649 bytes, 995 examples
      • train: 14008467 bytes, 72646 examples
    • 下载大小: 9166226 bytes
    • 数据集大小: 14188116 bytes
  • config_name: en-lv

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 186871 bytes, 995 examples
      • train: 10226810 bytes, 53141 examples
    • 下载大小: 6733028 bytes
    • 数据集大小: 10413681 bytes
  • config_name: en-mk

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 295079 bytes, 996 examples
      • train: 11159827 bytes, 42324 examples
    • 下载大小: 6149736 bytes
    • 数据集大小: 11454906 bytes
  • config_name: en-mn

    • 特征:
      • english: string
      • non_english: string
    • 分割:
      • dev: 261093 bytes, 991 examples
      • train: 5945603 bytes, 23270 examples
    • 下载大小: 3367099 bytes
    • 数据集大小: 6206696 bytes
  • **config_name

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作