seungwon929/Ja-miracl
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/seungwon929/Ja-miracl
下载链接
链接失效反馈官方服务:
资源简介:
Ja-miracl数据集是从miracl数据集的日语部分转换而来,采用了BeIR格式,使其能够与mteb兼容。数据集包含三个配置:default、corpus和queries,每个配置都有不同的特征和分割。default配置包含查询ID、语料库ID和分数;corpus配置包含ID、标题和文本;queries配置包含ID和文本。数据集主要用于文本检索任务。
Ja-miracl数据集是从miracl数据集的日语部分转换而来,采用了BeIR格式,使其能够与mteb兼容。数据集包含三个配置:default、corpus和queries,每个配置都有不同的特征和分割。default配置包含查询ID、语料库ID和分数;corpus配置包含ID、标题和文本;queries配置包含ID和文本。数据集主要用于文本检索任务。
提供机构:
seungwon929
原始信息汇总
数据集概述
基本信息
- 语言: 日语 (ja)
- 多语言性: 单语种
- 大小: 10K<n<100K
- 来源数据集: miracl
- 任务类别: 文本检索
- 任务ID: 文档检索
- 配置名称: corpus
- 标签: 文本检索
数据集配置
- 默认配置:
- 特征:
query-id: 字符串corpus-id: 字符串score: 浮点数
- 分割:
dev: 8354个样本,236068字节
- 特征:
- corpus配置:
- 特征:
_id: 字符串title: 字符串text: 字符串
- 分割:
corpus: 6953614个样本,538000000字节
- 特征:
- queries配置:
- 特征:
_id: 字符串text: 字符串
- 分割:
queries: 860个样本,98697字节
- 特征:
数据文件
- 默认配置:
dev: 路径为qrels/dev.jsonl
- corpus配置:
corpus: 路径为corpus.jsonl
- queries配置:
queries: 路径为queries.jsonl



