krasserm/wikipedia-2023-11-en-embed-mxbai-int8-binary
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/krasserm/wikipedia-2023-11-en-embed-mxbai-int8-binary
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: _id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
- name: emb_ubinary
sequence: uint8
- name: emb_int8
sequence: int8
splits:
- name: train
num_bytes: 68472712050
num_examples: 41488110
download_size: 58108387782
dataset_size: 68472712050
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset is an extension of the [krasserm/wikipedia-2023-11-en-text](https://huggingface.co/datasets/krasserm/wikipedia-2023-11-en-text)
dataset, with additional columns containing `ubinary` and `int8` embeddings of the text, created with the [mixedbread-ai/mxbai-embed-large-v1](https://huggingface.co/mixedbread-ai/mxbai-embed-large-v1)
embedding model. The dataset has the following columns:
- `_id`: unique identifier of the Wikipedia text chunk
- `title`: title of the Wikipedia article
- `url`: URL of the Wikipedia article
- `text`: text chunk of the Wikipedia article
- `emb_ubinary`: `binary` embeddings of the Wikipedia text chunk
- `emb_int8`: `int8` embeddings of the Wikipedia text chunk
提供机构:
krasserm
原始信息汇总
数据集概述
数据集特征
- _id: 字符串类型,维基百科文本块的唯一标识符。
- title: 字符串类型,维基百科文章的标题。
- url: 字符串类型,维基百科文章的URL。
- text: 字符串类型,维基百科文章的文本块。
- emb_ubinary: 序列类型,uint8,维基百科文本块的二进制嵌入。
- emb_int8: 序列类型,int8,维基百科文本块的int8嵌入。
数据集划分
- train: 训练集,包含41488110个示例,总大小为68472712050字节。
数据集大小
- 下载大小: 58108387782字节。
- 数据集大小: 68472712050字节。



