sentence-transformers/mr-tydi
收藏Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/mr-tydi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Mr. TyDi,主要用于特征提取和句子相似性任务。它包含多种语言的配置(如阿拉伯语、孟加拉语、英语、芬兰语、印尼语),并且每种语言有不同的配置,包括不同的负例数量(如三元组、三元组-100、三元组-全部)。每个配置详细描述了特征(锚点、正例、负例)、训练集的大小(字节数、样本数)、下载大小和数据集大小。
The dataset, named Mr. TyDi, is primarily used for feature extraction and sentence similarity tasks. It includes configurations for multiple languages (e.g., Arabic, Bengali, English, Finnish, Indonesian) with variations in the number of negative examples (e.g., triplet, triplet-100, triplet-all). Each configuration details the features (anchor, positive, negative), the size of the training split (bytes, number of examples), download size, and dataset size.
提供机构:
sentence-transformers
原始信息汇总
数据集概述
数据集名称
Mr. TyDi
数据集大小
- 1M < n < 10M
任务类别
- 特征提取
- 句子相似度
标签
- sentence-transformers
配置信息
配置名称:ar-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 24615084
- 样本数: 12377
- train:
- 下载大小: 12653243
- 数据集大小: 24615084
配置名称:ar-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train:
- 字节数: 1214594234
- 样本数: 12377
- train:
- 下载大小: 641644211
- 数据集大小: 1214594234
配置名称:ar-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 2453727140
- 样本数: 1237700
- train:
- 下载大小: 613873757
- 数据集大小: 2453727140
配置名称:bn-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 6017155
- 样本数: 1713
- train:
- 下载大小: 2175375
- 数据集大小: 6017155
配置名称:bn-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train:
- 字节数: 282968923
- 样本数: 1719
- train:
- 下载大小: 111281886
- 数据集大小: 282968923
配置名称:bn-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 602712985
- 样本数: 171900
- train:
- 下载大小: 107783867
- 数据集大小: 602712985
配置名称:en-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 4768398
- 样本数: 3547
- train:
- 下载大小: 3112690
- 数据集大小: 4768398
配置名称:en-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train:
- 字节数: 234808493
- 样本数: 3547
- train:
- 下载大小: 154772611
- 数据集大小: 234808493
配置名称:en-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 478023773
- 样本数: 354700
- train:
- 下载大小: 138708662
- 数据集大小: 478023773
配置名称:fi-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 7319798
- 样本数: 6561
- train:
- 下载大小: 4861307
- 数据集大小: 7319798
配置名称:fi-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train:
- 字节数: 365508753
- 样本数: 6561
- train:
- 下载大小: 247258083
- 数据集大小: 365508753
配置名称:fi-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 735154260
- 样本数: 656100
- train:
- 下载大小: 227681832
- 数据集大小: 735154260
配置名称:id-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 6313211
- 样本数: 4902
- train:
- 下载大小: 3774956
- 数据集大小: 6313211
配置名称:id-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train:
- 字节数: 365508753
- 样本数: 6561
- train:
- 下载大小: 247258083
- 数据集大小: 365508753



