sentence-transformers/parallel-sentences-talks
收藏Hugging Face2024-06-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-talks
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Talks,是一个多语言数据集,适用于特征提取和句子相似性等任务。数据集包含多种语言,规模在100万到1000万条之间。数据集按语言对(如英语-阿拉伯语、英语-保加利亚语等)分为多个配置,每个配置包含训练集和开发集。数据集的字段包括english和non_english,均为字符串类型。数据集还标记为sentence-transformers,表明其与句子嵌入任务相关。
The dataset, named Talks, is a multilingual dataset suitable for tasks such as feature extraction and sentence similarity. It includes a wide range of languages and has a size ranging between 1 million and 10 million entries. The dataset is divided into multiple configurations, each corresponding to a pair of languages (e.g., English-Arabic, English-Bulgarian, etc.), with each configuration containing training and development splits. The features of the dataset include english and non_english text fields, both of which are of string type. The dataset is also tagged with sentence-transformers, indicating its relevance to tasks involving sentence embeddings.
提供机构:
sentence-transformers
原始信息汇总
数据集概述
语言支持
- 英语 (en)
- 多语言 (multilingual)
- 阿拉伯语 (ar)
- 保加利亚语 (bg)
- 加泰罗尼亚语 (ca)
- 捷克语 (cs)
- 丹麦语 (da)
- 德语 (de)
- 希腊语 (el)
- 西班牙语 (es)
- 爱沙尼亚语 (et)
- 波斯语 (fa)
- 芬兰语 (fi)
- 法语 (fr)
- 加利西亚语 (gl)
- 古吉拉特语 (gu)
- 希伯来语 (he)
- 印地语 (hi)
- 克罗地亚语 (hr)
- 匈牙利语 (hu)
- 亚美尼亚语 (hy)
- 印度尼西亚语 (id)
- 意大利语 (it)
- 日语 (ja)
- 格鲁吉亚语 (ka)
- 韩语 (ko)
- 库尔德语 (ku)
- 立陶宛语 (lt)
- 拉脱维亚语 (lv)
- 马其顿语 (mk)
- 蒙古语 (mn)
- 马拉地语 (mr)
- 马来语 (ms)
- 缅甸语 (my)
- 挪威语 (nb)
- 荷兰语 (nl)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 斯洛伐克语 (sk)
- 斯洛文尼亚语 (sl)
- 阿尔巴尼亚语 (sq)
- 塞尔维亚语 (sr)
- 瑞典语 (sv)
- 泰语 (th)
- 土耳其语 (tr)
- 乌克兰语 (uk)
- 乌尔都语 (ur)
- 越南语 (vi)
- 中文 (zh)
数据集大小分类
- 1M<n<10M
任务分类
- 特征提取 (feature-extraction)
- 句子相似度 (sentence-similarity)
数据集配置
-
config_name: all
- 特征:
- english: string
- non_english: string
- 分割:
- train: 2172442927 bytes, 9750031 examples
- dev: 12276835 bytes, 51648 examples
- 下载大小: 1303862376 bytes
- 数据集大小: 2184719762 bytes
- 特征:
-
config_name: en-ar
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 261721 bytes, 993 examples
- train: 97535431 bytes, 396981 examples
- 下载大小: 55634048 bytes
- 数据集大小: 97797152 bytes
- 特征:
-
config_name: en-bg
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 290309 bytes, 994 examples
- train: 65957827 bytes, 242950 examples
- 下载大小: 35825942 bytes
- 数据集大小: 66248136 bytes
- 特征:
-
config_name: en-ca
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 186792 bytes, 996 examples
- train: 9911322 bytes, 50409 examples
- 下载大小: 6372205 bytes
- 数据集大小: 10098114 bytes
- 特征:
-
config_name: en-cs
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 199962 bytes, 994 examples
- train: 32452873 bytes, 165674 examples
- 下载大小: 21238718 bytes
- 数据集大小: 32652835 bytes
- 特征:
-
config_name: en-da
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 186373 bytes, 998 examples
- train: 13497127 bytes, 69508 examples
- 下载大小: 8501193 bytes
- 数据集大小: 13683500 bytes
- 特征:
-
config_name: en-de
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 223167 bytes, 991 examples
- train: 59688681 bytes, 288394 examples
- 下载大小: 37399211 bytes
- 数据集大小: 59911848 bytes
- 特征:
-
config_name: en-el
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 303401 bytes, 993 examples
- train: 75746398 bytes, 261683 examples
- 下载大小: 41103150 bytes
- 数据集大小: 76049799 bytes
- 特征:
-
config_name: en-es
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 214497 bytes, 990 examples
- train: 82723117 bytes, 404981 examples
- 下载大小: 51812756 bytes
- 数据集大小: 82937614 bytes
- 特征:
-
config_name: en-et
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 190503 bytes, 994 examples
- train: 4153466 bytes, 21998 examples
- 下载大小: 2812858 bytes
- 数据集大小: 4343969 bytes
- 特征:
-
config_name: en-fa
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 292937 bytes, 992 examples
- train: 80139316 bytes, 296494 examples
- 下载大小: 42908525 bytes
- 数据集大小: 80432253 bytes
- 特征:
-
config_name: en-fi
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 181241 bytes, 992 examples
- train: 8093532 bytes, 42571 examples
- 下载大小: 5278857 bytes
- 数据集大小: 8274773 bytes
- 特征:
-
config_name: en-fr
- 特征:
- english: string
- non_english: string
- 分割:
- train: 84492902 bytes, 398870 examples
- dev: 226424 bytes, 992 examples
- 下载大小: 52180856 bytes
- 数据集大小: 84719326 bytes
- 特征:
-
config_name: en-fr-ca
- 特征:
- english: string
- non_english: string
- 分割:
- train: 6405861 bytes, 31658 examples
- dev: 203685 bytes, 997 examples
- 下载大小: 4082782 bytes
- 数据集大小: 6609546 bytes
- 特征:
-
config_name: en-gl
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 184121 bytes, 990 examples
- train: 6380909 bytes, 32589 examples
- 下载大小: 4115393 bytes
- 数据集大小: 6565030 bytes
- 特征:
-
config_name: en-gu
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 294688 bytes, 992 examples
- train: 4750909 bytes, 14583 examples
- 下载大小: 2382250 bytes
- 数据集大小: 5045597 bytes
- 特征:
-
config_name: en-he
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 244494 bytes, 993 examples
- train: 79884584 bytes, 342553 examples
- 下载大小: 45550473 bytes
- 数据集大小: 80129078 bytes
- 特征:
-
config_name: en-hi
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 317741 bytes, 1000 examples
- train: 14457337 bytes, 45403 examples
- 下载大小: 6954868 bytes
- 数据集大小: 14775078 bytes
- 特征:
-
config_name: en-hr
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 199848 bytes, 991 examples
- train: 36828927 bytes, 191432 examples
- 下载大小: 24154612 bytes
- 数据集大小: 37028775 bytes
- 特征:
-
config_name: en-hu
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 216539 bytes, 993 examples
- train: 61139948 bytes, 299703 examples
- 下载大小: 39374876 bytes
- 数据集大小: 61356487 bytes
- 特征:
-
config_name: en-hy
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 277006 bytes, 990 examples
- train: 9377389 bytes, 35267 examples
- 下载大小: 5196179 bytes
- 数据集大小: 9654395 bytes
- 特征:
-
config_name: en-id
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 222842 bytes, 991 examples
- train: 32257497 bytes, 159834 examples
- 下载大小: 19306101 bytes
- 数据集大小: 32480339 bytes
- 特征:
-
config_name: en-it
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 218769 bytes, 993 examples
- train: 73809891 bytes, 362809 examples
- 下载大小: 46527761 bytes
- 数据集大小: 74028660 bytes
- 特征:
-
config_name: en-ja
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 233733 bytes, 992 examples
- train: 77824312 bytes, 357225 examples
- 下载大小: 46914912 bytes
- 数据集大小: 78058045 bytes
- 特征:
-
config_name: en-ka
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 312500 bytes, 996 examples
- train: 9055108 bytes, 26725 examples
- 下载大小: 4185942 bytes
- 数据集大小: 9367608 bytes
- 特征:
-
config_name: en-ko
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 240101 bytes, 991 examples
- train: 87346962 bytes, 388942 examples
- 下载大小: 52669151 bytes
- 数据集大小: 87587063 bytes
- 特征:
-
config_name: en-ku
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 259363 bytes, 998 examples
- train: 15291465 bytes, 55897 examples
- 下载大小: 8336981 bytes
- 数据集大小: 15550828 bytes
- 特征:
-
config_name: en-lt
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 179649 bytes, 995 examples
- train: 14008467 bytes, 72646 examples
- 下载大小: 9166226 bytes
- 数据集大小: 14188116 bytes
- 特征:
-
config_name: en-lv
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 186871 bytes, 995 examples
- train: 10226810 bytes, 53141 examples
- 下载大小: 6733028 bytes
- 数据集大小: 10413681 bytes
- 特征:
-
config_name: en-mk
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 295079 bytes, 996 examples
- train: 11159827 bytes, 42324 examples
- 下载大小: 6149736 bytes
- 数据集大小: 11454906 bytes
- 特征:
-
config_name: en-mn
- 特征:
- english: string
- non_english: string
- 分割:
- dev: 261093 bytes, 991 examples
- train: 5945603 bytes, 23270 examples
- 下载大小: 3367099 bytes
- 数据集大小: 6206696 bytes
- 特征:
-
**config_name



