justinlamlamlam/wiki_encoding_v0
收藏Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/justinlamlamlam/wiki_encoding_v0
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: split_0
features:
- name: id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
- name: embeddings
sequence: float32
splits:
- name: train
num_bytes: 7759682
num_examples: 1615
download_size: 6761008
dataset_size: 7759682
- config_name: split_1
features:
- name: id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
- name: embeddings
sequence: float32
splits:
- name: train
num_bytes: 7798136
num_examples: 1615
download_size: 6775665
dataset_size: 7798136
configs:
- config_name: split_0
data_files:
- split: train
path: split_0/train-*
- config_name: split_1
data_files:
- split: train
path: split_1/train-*
---
数据集信息:
- 配置名称:split_0
特征:
- 名称:id,数据类型:字符串
- 名称:url,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
- 名称:嵌入向量(embeddings),为float32类型的序列
数据划分:
- 划分名称:train(训练集),字节数:7759682,样本数:1615
下载总大小:6761008,数据集总占用大小:7759682
- 配置名称:split_1
特征:
- 名称:id,数据类型:字符串
- 名称:url,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
- 名称:嵌入向量(embeddings),为float32类型的序列
数据划分:
- 划分名称:train(训练集),字节数:7798136,样本数:1615
下载总大小:6775665,数据集总占用大小:7798136
配置详情:
- 配置名称:split_0,数据文件:
- 数据划分:train,文件路径:split_0/train-*
- 配置名称:split_1,数据文件:
- 数据划分:train,文件路径:split_1/train-*
提供机构:
justinlamlamlam
原始信息汇总
数据集概述
数据集配置
-
配置名称: split_0
- 特征:
- id: string
- url: string
- title: string
- text: string
- embeddings: sequence of float32
- 分割:
- train
- 字节数: 7759682
- 样本数: 1615
- train
- 下载大小: 6761008
- 数据集大小: 7759682
- 数据文件:
- train: split_0/train-*
- 特征:
-
配置名称: split_1
- 特征:
- id: string
- url: string
- title: string
- text: string
- embeddings: sequence of float32
- 分割:
- train
- 字节数: 7798136
- 样本数: 1615
- train
- 下载大小: 6775665
- 数据集大小: 7798136
- 数据文件:
- train: split_1/train-*
- 特征:



