docmatix-ir
收藏Docmatix-IR 数据集概述
数据集描述
Docmatix-IR 是从原始的 Docmatix 数据集转换而来的,专门用于训练文档视觉嵌入模型,以进行开放域视觉问答任务。原始的 Docmatix 数据集包含大量的 PDF 图像(2.4M)和相关问题(9.5M),但许多问题不适用于开放域问答。
数据处理步骤
- 过滤问题:移除过于具体且不适用于开放域问答的问题,例如“文本的摘要是什么?”
- 挖掘硬负样本:为每个问题识别具有挑战性的负样本,以创建高质量的训练数据。
具体处理方法包括使用 Document Screenshot Embedding (DSE) 模型对整个 Docmatix 语料库进行编码,并为每个问题检索100个候选文档。如果正样本文档(原始配对的PDF图像)未出现在前100个检索结果中,则该查询被认为不适用于开放域检索并被过滤掉。如果正样本文档出现在前100个检索结果中,则非正样本文档被视为该问题的硬负样本。
数据集规模
经过过滤和硬负样本挖掘后,最终得到5.61M个高质量的训练样本,过滤掉了约4M个问题。
数据集使用方法
该数据集与原始的 Docmatix 数据集联合使用,原始数据集作为语料库以获取相应的图像数据。在 Docmatix-IR 中,查询ID和文档ID的格式如下:
- 文档ID:
{example_idx}_{image_idx} - 查询ID:
{example_idx}_{question_idx}
其中,{example_idx} 对应于原始 Docmatix 数据集中的示例索引。
例如,获取文档ID为 {123_1} 的图像数据可以使用以下代码:
python
from datasets import load_dataset
corpus = load_dataset(HuggingFaceM4/Docmatix)[train] docid = "123_1" example_idx, image_idx = docid.split(_) target_image = corpus[int(example_idx)][images][int(image_idx)]




