ContextSearchLM/context_search_vietnamese_english_prompt_97_minilmtok_finetune
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ContextSearchLM/context_search_vietnamese_english_prompt_97_minilmtok_finetune
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: query
dtype: string
- name: pos
dtype: string
- name: neg
dtype: string
- name: query_ids
sequence: int32
- name: query_attention_mask
sequence: int8
- name: positive_ids
sequence: int32
- name: positive_attention_mask
sequence: int8
- name: negative_ids
sequence: int32
- name: negative_attention_mask
sequence: int8
splits:
- name: train
num_bytes: 2332740609.9629984
num_examples: 1706756
- name: validation
num_bytes: 7191922.85050598
num_examples: 5977
download_size: 916690770
dataset_size: 2339932532.813504
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
---
数据集信息:
特征:
- 名称:query(查询文本),数据类型:字符串(string)
- 名称:pos(正例样本),数据类型:字符串(string)
- 名称:neg(负例样本),数据类型:字符串(string)
- 名称:query_ids(查询Token编号序列),数据类型:序列(sequence),元素类型为32位整数(int32)
- 名称:query_attention_mask(查询注意力掩码(attention_mask)序列),数据类型:序列(sequence),元素类型为8位整数(int8)
- 名称:positive_ids(正例样本Token编号序列),数据类型:序列(sequence),元素类型为32位整数(int32)
- 名称:positive_attention_mask(正例样本注意力掩码(attention_mask)序列),数据类型:序列(sequence),元素类型为8位整数(int8)
- 名称:negative_ids(负例样本Token编号序列),数据类型:序列(sequence),元素类型为32位整数(int32)
- 名称:negative_attention_mask(负例样本注意力掩码(attention_mask)序列),数据类型:序列(sequence),元素类型为8位整数(int8)
划分集:
- 划分名称:train(训练集),占用字节数:2332740609.9629984,样本数量:1706756
- 划分名称:validation(验证集),占用字节数:7191922.85050598,样本数量:5977
下载大小:916690770字节
数据集总大小:2339932532.813504字节
配置项:
- 配置名称:default(默认配置),数据文件:
- 对应划分集:train(训练集),文件路径:data/train-*
- 对应划分集:validation(验证集),文件路径:data/validation-*
提供机构:
ContextSearchLM



