OGC_2_vdr-visRAG-colpali
收藏魔搭社区2025-12-05 更新2025-07-05 收录
下载链接:
https://modelscope.cn/datasets/racineai/OGC_2_vdr-visRAG-colpali
下载链接
链接失效反馈官方服务:
资源简介:
# VDR 2 - Organized, Grouped, Cleaned
> **Intended for image/text to vector (DSE)**
## Dataset Composition
This second version only has rows with positive queries
The dataset merges, shuffles, and formats data from:
- [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)
- [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data)
- [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train)
## Dataset Statistics
| Metric | Value |
|--------|-------|
| Total rows | 600,000+ |
## Language Distribution
| Language| Ratio |
|--------|-------|
| English | ≈ 64% |
| French | ≈ 9% |
| Spanish | ≈ 9% |
| Italian | ≈ 8% |
| German | ≈ 8% |
## Creators
Dataset curated by:
- **Paul Lemaistre**
- **Léo Appourchaux**
# VDR 2:结构化、分组、清洗后版本
> **适用于图像/文本向量化任务(DSE)**
## 数据集构成
本第二版仅保留包含正向查询的数据行。
本数据集整合、洗牌并格式化了来自以下来源的数据:
- [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)
- [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data)
- [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train)
## 数据集统计指标
| 指标 | 数值 |
|--------|-------|
| 总数据行数 | 600,000+ |
## 语言分布
| 语言 | 占比 |
|--------|-------|
| 英语 | ≈ 64% |
| 法语 | ≈ 9% |
| 西班牙语 | ≈ 9% |
| 意大利语 | ≈ 8% |
| 德语 | ≈ 8% |
## 数据集整理者
本数据集由以下人员整理:
- **Paul Lemaistre**
- **Léo Appourchaux**
提供机构:
maas
创建时间:
2025-07-04



