VDR_colpali-VisRAG-vdr
收藏魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/racineai/VDR_colpali-VisRAG-vdr
下载链接
链接失效反馈官方服务:
资源简介:
# WIP - there might be issues with the negatives
# VDR - Organized, Grouped, Cleaned
> **Intended for image/text to vector (DSE)**
## Dataset Composition
The dataset merges, shuffles, and formats data from:
- [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)
- [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data)
- [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train)
## Dataset Statistics
| Metric | Value |
|--------|-------|
| Total rows | 700,000+ |
| Rows with negatives | ≈ 33% |
| Rows without queries (image negatives only) | ≈ 25% |
## Language Distribution
| Language| Ratio |
|--------|-------|
| English | ≈ 52% |
| French | ≈ 12% |
| Spanish | ≈ 12% |
| Italian | ≈ 12% |
| German | ≈ 12% |
## Creators
Dataset curated by:
- **Paul Lemaistre**
- **Léo Appourchaux**
# 工作进行中——负样本或存在瑕疵
# VDR——结构化、分组化、经清洗的数据集
> **本数据集旨在用于图像/文本向量化任务(DSE)**
## 数据集构成
本数据集整合、洗牌并格式化了以下来源的数据集:
- [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)
- [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data)
- [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train)
## 数据集统计指标
| 指标 | 数值 |
|--------|-------|
| 总样本行数 | 700,000+ |
| 含负样本的行数 | ≈ 33% |
| 无查询项的行数(仅含图像负样本) | ≈ 25% |
## 语言分布情况
| 语言 | 占比 |
|--------|-------|
| 英语 | ≈ 52% |
| 法语 | ≈ 12% |
| 西班牙语 | ≈ 12% |
| 意大利语 | ≈ 12% |
| 德语 | ≈ 12% |
## 数据集整理团队
本数据集由以下人员整理:
- **保罗·勒梅斯特雷(Paul Lemaistre)**
- **莱奥·阿普尔沙(Léo Appourchaux)**
提供机构:
maas
创建时间:
2025-11-21



