five

VDR_colpali-VisRAG-vdr

收藏
魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/racineai/VDR_colpali-VisRAG-vdr
下载链接
链接失效反馈
官方服务:
资源简介:
# WIP - there might be issues with the negatives # VDR - Organized, Grouped, Cleaned > **Intended for image/text to vector (DSE)** ## Dataset Composition The dataset merges, shuffles, and formats data from: - [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set) - [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data) - [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train) ## Dataset Statistics | Metric | Value | |--------|-------| | Total rows | 700,000+ | | Rows with negatives | ≈ 33% | | Rows without queries (image negatives only) | ≈ 25% | ## Language Distribution | Language| Ratio | |--------|-------| | English | ≈ 52% | | French | ≈ 12% | | Spanish | ≈ 12% | | Italian | ≈ 12% | | German | ≈ 12% | ## Creators Dataset curated by: - **Paul Lemaistre** - **Léo Appourchaux**

# 工作进行中——负样本或存在瑕疵 # VDR——结构化、分组化、经清洗的数据集 > **本数据集旨在用于图像/文本向量化任务(DSE)** ## 数据集构成 本数据集整合、洗牌并格式化了以下来源的数据集: - [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set) - [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data) - [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train) ## 数据集统计指标 | 指标 | 数值 | |--------|-------| | 总样本行数 | 700,000+ | | 含负样本的行数 | ≈ 33% | | 无查询项的行数(仅含图像负样本) | ≈ 25% | ## 语言分布情况 | 语言 | 占比 | |--------|-------| | 英语 | ≈ 52% | | 法语 | ≈ 12% | | 西班牙语 | ≈ 12% | | 意大利语 | ≈ 12% | | 德语 | ≈ 12% | ## 数据集整理团队 本数据集由以下人员整理: - **保罗·勒梅斯特雷(Paul Lemaistre)** - **莱奥·阿普尔沙(Léo Appourchaux)**
提供机构:
maas
创建时间:
2025-11-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作