five

another-symato/VMTEB-Zalo-legel-retrieval

收藏
Hugging Face2024-10-24 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/another-symato/VMTEB-Zalo-legel-retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: corpus features: - name: id dtype: string - name: title dtype: string - name: text dtype: string splits: - name: train num_bytes: 113176489 num_examples: 61425 download_size: 33991771 dataset_size: 113176489 - config_name: data_ir features: - name: corpus_id dtype: string - name: query_id dtype: string - name: score dtype: int64 splits: - name: train num_bytes: 166747.80976220276 num_examples: 2556 - name: test num_bytes: 41752.190237797244 num_examples: 640 download_size: 141112 dataset_size: 208500.0 - config_name: queries features: - name: query_id dtype: string - name: question dtype: string splits: - name: train num_bytes: 493480 num_examples: 3196 download_size: 287240 dataset_size: 493480 configs: - config_name: corpus data_files: - split: train path: corpus/train-* - config_name: data_ir data_files: - split: train path: data_ir/train-* - split: test path: data_ir/test-* - config_name: queries data_files: - split: train path: queries/train-* ---

数据集信息: - 配置名称:corpus 特征: - 名称:id 数据类型(dtype):字符串 - 名称:标题 数据类型:字符串 - 名称:文本 数据类型:字符串 拆分: - 名称:训练集 字节数:113176489 样本数:61425 下载大小:33991771 数据集大小:113176489 - 配置名称:data_ir 特征: - 名称:语料库ID 数据类型:字符串 - 名称:查询ID 数据类型:字符串 - 名称:得分 数据类型:int64 拆分: - 名称:训练集 字节数:166747.80976220276 样本数:2556 - 名称:测试集 字节数:41752.190237797244 样本数:640 下载大小:141112 数据集大小:208500.0 - 配置名称:queries 特征: - 名称:查询ID 数据类型:字符串 - 名称:问题 数据类型:字符串 拆分: - 名称:训练集 字节数:493480 样本数:3196 下载大小:287240 数据集大小:493480 配置: - 配置名称:corpus 数据文件: - 拆分:训练集 路径:corpus/train-* - 配置名称:data_ir 数据文件: - 拆分:训练集 路径:data_ir/train-* - 拆分:测试集 路径:data_ir/test-* - 配置名称:queries 数据文件: - 拆分:训练集 路径:queries/train-*
提供机构:
another-symato
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作