another-symato/VMTEB-Zalo-legel-retrieval
收藏Hugging Face2024-10-24 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/another-symato/VMTEB-Zalo-legel-retrieval
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: corpus
features:
- name: id
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 113176489
num_examples: 61425
download_size: 33991771
dataset_size: 113176489
- config_name: data_ir
features:
- name: corpus_id
dtype: string
- name: query_id
dtype: string
- name: score
dtype: int64
splits:
- name: train
num_bytes: 166747.80976220276
num_examples: 2556
- name: test
num_bytes: 41752.190237797244
num_examples: 640
download_size: 141112
dataset_size: 208500.0
- config_name: queries
features:
- name: query_id
dtype: string
- name: question
dtype: string
splits:
- name: train
num_bytes: 493480
num_examples: 3196
download_size: 287240
dataset_size: 493480
configs:
- config_name: corpus
data_files:
- split: train
path: corpus/train-*
- config_name: data_ir
data_files:
- split: train
path: data_ir/train-*
- split: test
path: data_ir/test-*
- config_name: queries
data_files:
- split: train
path: queries/train-*
---
数据集信息:
- 配置名称:corpus
特征:
- 名称:id
数据类型(dtype):字符串
- 名称:标题
数据类型:字符串
- 名称:文本
数据类型:字符串
拆分:
- 名称:训练集
字节数:113176489
样本数:61425
下载大小:33991771
数据集大小:113176489
- 配置名称:data_ir
特征:
- 名称:语料库ID
数据类型:字符串
- 名称:查询ID
数据类型:字符串
- 名称:得分
数据类型:int64
拆分:
- 名称:训练集
字节数:166747.80976220276
样本数:2556
- 名称:测试集
字节数:41752.190237797244
样本数:640
下载大小:141112
数据集大小:208500.0
- 配置名称:queries
特征:
- 名称:查询ID
数据类型:字符串
- 名称:问题
数据类型:字符串
拆分:
- 名称:训练集
字节数:493480
样本数:3196
下载大小:287240
数据集大小:493480
配置:
- 配置名称:corpus
数据文件:
- 拆分:训练集
路径:corpus/train-*
- 配置名称:data_ir
数据文件:
- 拆分:训练集
路径:data_ir/train-*
- 拆分:测试集
路径:data_ir/test-*
- 配置名称:queries
数据文件:
- 拆分:训练集
路径:queries/train-*
提供机构:
another-symato



