five

OGC_2_vdr-visRAG-colpali

收藏
魔搭社区2025-12-05 更新2025-07-05 收录
下载链接:
https://modelscope.cn/datasets/racineai/OGC_2_vdr-visRAG-colpali
下载链接
链接失效反馈
官方服务:
资源简介:
# VDR 2 - Organized, Grouped, Cleaned > **Intended for image/text to vector (DSE)** ## Dataset Composition This second version only has rows with positive queries The dataset merges, shuffles, and formats data from: - [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set) - [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data) - [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train) ## Dataset Statistics | Metric | Value | |--------|-------| | Total rows | 600,000+ | ## Language Distribution | Language| Ratio | |--------|-------| | English | ≈ 64% | | French | ≈ 9% | | Spanish | ≈ 9% | | Italian | ≈ 8% | | German | ≈ 8% | ## Creators Dataset curated by: - **Paul Lemaistre** - **Léo Appourchaux**

# VDR 2:结构化、分组、清洗后版本 > **适用于图像/文本向量化任务(DSE)** ## 数据集构成 本第二版仅保留包含正向查询的数据行。 本数据集整合、洗牌并格式化了来自以下来源的数据: - [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set) - [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data) - [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train) ## 数据集统计指标 | 指标 | 数值 | |--------|-------| | 总数据行数 | 600,000+ | ## 语言分布 | 语言 | 占比 | |--------|-------| | 英语 | ≈ 64% | | 法语 | ≈ 9% | | 西班牙语 | ≈ 9% | | 意大利语 | ≈ 8% | | 德语 | ≈ 8% | ## 数据集整理者 本数据集由以下人员整理: - **Paul Lemaistre** - **Léo Appourchaux**
提供机构:
maas
创建时间:
2025-07-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作