five

OGC_colpali-VisRAG-vdr

收藏
魔搭社区2025-12-05 更新2025-07-05 收录
下载链接:
https://modelscope.cn/datasets/racineai/OGC_colpali-VisRAG-vdr
下载链接
链接失效反馈
官方服务:
资源简介:
# WIP - there might be issues with the negatives # VDR - Organized, Grouped, Cleaned > **Intended for image/text to vector (DSE)** ## Dataset Composition The dataset merges, shuffles, and formats data from: - [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set) - [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data) - [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train) ## Dataset Statistics | Metric | Value | |--------|-------| | Total rows | 700,000+ | | Rows with negatives | ≈ 33% | | Rows without queries (image negatives only) | ≈ 25% | ## Language Distribution | Language| Ratio | |--------|-------| | English | ≈ 52% | | French | ≈ 12% | | Spanish | ≈ 12% | | Italian | ≈ 12% | | German | ≈ 12% | ## Creators Dataset curated by: - **Paul Lemaistre** - **Léo Appourchaux**

# 工作进行中(WIP)——负样本部分可能存在疏漏 # VDR——经整理、分组与清洗 > **适用于图像/文本向量化(DSE)任务** ## 数据集构成 本数据集整合、洗牌并格式化了以下来源的数据: - [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set) - [openbmb/VisRAG-Ret-Train-Synthetic-data](https://huggingface.co/datasets/openbmb/VisRAG-Ret-Train-Synthetic-data) - [llamaindex/vdr-multilingual-train](https://huggingface.co/datasets/llamaindex/vdr-multilingual-train) ## 数据集统计信息 | 指标 | 数值 | |--------|-------| | 总样本行数 | 70万条以上 | | 包含负样本的样本行数 | 约33% | | 无查询语句的样本行数(仅含图像负样本) | 约25% | ## 语言分布 | 语言 | 占比 | |--------|-------| | 英语 | 约52% | | 法语 | 约12% | | 西班牙语 | 约12% | | 意大利语 | 约12% | | 德语 | 约12% | ## 制作团队 本数据集由以下人员整理制作: - **Paul Lemaistre** - **Léo Appourchaux**
提供机构:
maas
创建时间:
2025-07-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作