gowitheflow/wiki-span
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gowitheflow/wiki-span
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: sentence1
dtype: string
- name: sentence2
dtype: string
splits:
- name: train
num_bytes: 14498836027
num_examples: 6458670
download_size: 8956015300
dataset_size: 14498836027
---
# Dataset Card for "wiki-span"
This dataset is constructed by sampling 25%-50% of each wikipedia record twice, as positive pairs. It can be used to train unsupervised sentence representation models.
提供机构:
gowitheflow
原始信息汇总
数据集卡片 "wiki-span"
数据集信息
特征
- sentence1: 数据类型为字符串
- sentence2: 数据类型为字符串
分割
- train:
- 字节数: 14498836027
- 样本数: 6458670
下载和数据集大小
- 下载大小: 8956015300
- 数据集大小: 14498836027
数据集描述
该数据集是通过对每个维基百科记录的25%-50%进行两次采样构建的正样本对。可用于训练无监督的句子表示模型。



