OGC_colpali-VisRAG-vdr
收藏魔搭社区2025-12-05 更新2025-07-05 收录
下载链接:
https://modelscope.cn/datasets/racineai/OGC_colpali-VisRAG-vdr
下载链接
链接失效反馈官方服务:
资源简介:
# WIP - there might be issues with the negatives
# VDR - Organized, Grouped, Cleaned
> **Intended for image/text to vector (DSE)**
## Dataset Composition
The dataset merges, shuffles, and formats data from:
- [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)
- [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data)
- [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train)
## Dataset Statistics
| Metric | Value |
|--------|-------|
| Total rows | 700,000+ |
| Rows with negatives | ≈ 33% |
| Rows without queries (image negatives only) | ≈ 25% |
## Language Distribution
| Language| Ratio |
|--------|-------|
| English | ≈ 52% |
| French | ≈ 12% |
| Spanish | ≈ 12% |
| Italian | ≈ 12% |
| German | ≈ 12% |
## Creators
Dataset curated by:
- **Paul Lemaistre**
- **Léo Appourchaux**
# 工作进行中(WIP)——负样本部分可能存在疏漏
# VDR——经整理、分组与清洗
> **适用于图像/文本向量化(DSE)任务**
## 数据集构成
本数据集整合、洗牌并格式化了以下来源的数据:
- [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)
- [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data)
- [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train)
## 数据集统计信息
| 指标 | 数值 |
|--------|-------|
| 总样本行数 | 70万条以上 |
| 包含负样本的样本行数 | 约33% |
| 无查询语句的样本行数(仅含图像负样本) | 约25% |
## 语言分布
| 语言 | 占比 |
|--------|-------|
| 英语 | 约52% |
| 法语 | 约12% |
| 西班牙语 | 约12% |
| 意大利语 | 约12% |
| 德语 | 约12% |
## 制作团队
本数据集由以下人员整理制作:
- **Paul Lemaistre**
- **Léo Appourchaux**
提供机构:
maas
创建时间:
2025-07-04



