Viet-colpali_train_set-Gemini

Name: Viet-colpali_train_set-Gemini
Creator: maas
Published: 2025-11-07 16:20:06
License: 暂无描述

魔搭社区2025-11-07 更新2025-01-11 收录

下载链接：

https://modelscope.cn/datasets/5CD-AI/Viet-colpali_train_set-Gemini

下载链接

链接失效反馈

官方服务：

资源简介：

## Dataset Description This dataset is translated from [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set), The content within the images is translated into Vietnamese, and the translated text is replaced directly into the corresponding images. Additionally, the 'query,' 'answer,' 'options,' and 'prompt' fields are translated using Gemini 1.5 Flase 002. ### Example 1: **Original image => Vietnamse translated image** <div style="display: grid; grid-template-columns: repeat(2, 400px); grid-gap: 15px;"> <img src="https://lh3.googleusercontent.com/pw/AP1GczN0uYdScO1y34hK8LyhTYR93LOxHGGNkeUcvXMYtrdTWjE0bbo94-clN36Ag_1Wt3SfSd-u-AN4eixagZGUdk2Rf1AvW7elWCjCBLY50nxfSI6JS4OW44cNvOFfLuzNfVgKcVu-3-j_cVTidRc7Ca-o=w1166-h1508-s-no-gm?authuser=0" style="width: 400px;"> <img src="https://lh3.googleusercontent.com/pw/AP1GczNnZKagbxk-X4JFMxrh3TBQplJ0LJbz5bW2OKMPvtFvgVHapqB8zWfJSlSE-TYo9at71kt7eLJ4SL-P6xNEP_FXKUc3CMvoKdCwIxFU9Ie28YW3DW-EUeIAv7KVYZJbf4UBE9xfK9re3b_gtKKaCYqO=w1164-h1508-s-no-gm?authuser=0" style="width: 400px;"> </div> **Query:** Những đề xuất nào Tập đoàn Y tế Liberty nên xem xét để cải thiện tỷ lệ luân chuyển khoản phải thu và tỷ lệ doanh thu trong khoản phải thu? **Answer:** ['Lập lịch trình quá hạn để xác định khoản phải thu đã quá hạn trong bao lâu', 'Phát triển chiến lược để xử lý các khách hàng khó tính và các khoản quá hạn', 'Thực thi chính sách tín dụng để yêu cầu thông tin tham khảo tín dụng của khách hàng mới và đánh giá tín dụng được mở rộng cho từng khách hàng', 'Thực hiện các ưu đãi cho khách hàng để khuyến khích thanh toán nhanh chóng như giảm giá và sản phẩm bổ sung'] **Prompt:** Bạn là trợ lý chuyên về các nhiệm vụ RAG đa phương thức. Nhiệm vụ như sau: cho một hình ảnh từ một trang pdf, bạn sẽ phải tạo các câu hỏi mà người dùng có thể đặt ra để truy xuất thông tin từ một tập hợp tài liệu lớn. Câu hỏi phải có liên quan đến trang và không được quá cụ thể hoặc quá chung chung. Câu hỏi phải liên quan đến chủ đề của trang và câu trả lời cần được tìm thấy trong trang. Hãy nhớ rằng câu hỏi được người dùng đặt ra để lấy một số thông tin từ một tập hợp tài liệu lớn chứa dữ liệu đa phương thức. Tạo một câu hỏi mà người dùng có thể đặt ra mà không biết sự tồn tại và nội dung của tập hợp. Hãy tạo ra câu trả lời cho câu hỏi, câu trả lời đó cần được tìm thấy trong trang. Và định dạng câu trả lời phải là một danh sách các từ trả lời câu hỏi. Tạo tối đa BA cặp câu hỏi và câu trả lời cho mỗi trang trong một từ điển với định dạng sau, CHỈ trả lời từ điển này KHÔNG CÓ GÌ KHÁC: { "questions": [ { "question": "XXXXXX", "answer": ["YYYYYY"] }, { "question": "XXXXXX", "answer": ["YYYYYY"] }, { "question": "XXXXXX", "answer": ["YYYYYY"] }, ] } trong đó XXXXXX là câu hỏi và ['YYYYYY'] là danh sách câu trả lời tương ứng có thể dài tùy ý. Lưu ý: Nếu không có câu hỏi nào để đặt về trang, hãy trả về một danh sách trống. Tập trung vào việc đặt các câu hỏi có liên quan đến trang. Đây là trang: | Dataset | #examples (query-page pairs) | Language | |------------------------------------------|-------------------------------|----------| | [DocVQA](https://www.docvqa.org/datasets/docvqa) | 39,463 | English | | [InfoVQA](https://www.docvqa.org/datasets/infographicvqa) | 10,074 | English | | [TATDQA](https://github.com/NExTplusplus/TAT-DQA) | 13,251 | English | | [arXivQA](https://huggingface.co/datasets/MMInstruction/ArxivQA) | 10,000 | English | | Scrapped documents with a wide array of topics covered | 45,940 | English | | **TOTAL** | **118,695** | **English-only** | ### Load the dataset ```python from datasets import load_dataset ds = load_dataset("5CD-AI/Viet-colpali_train_set-Gemini", split="train") ``` ## License Follow from [vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set) All academic datasets used are here redistributed subsampled and under their original license. The synthetic datasets is created with public internet data and VLM synthetic queries are released without usage restrictions. ## References ```latex @misc{faysse2024colpaliefficientdocumentretrieval, title={ColPali: Efficient Document Retrieval with Vision Language Models}, author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo}, year={2024}, eprint={2407.01449}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2407.01449}, } ```

## 数据集说明本数据集改编自[vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)，将图像内的文本内容翻译为越南语，并直接将译后文本替换至对应图像中。此外，数据集的`query（查询）`、`answer（回答）`、`options（选项）`与`prompt（提示词）`字段均通过Gemini 1.5 Flase 002完成翻译。 ### 示例1： **原始图像 => 越南语译后图像** <div style="display: grid; grid-template-columns: repeat(2, 400px); grid-gap: 15px;"> <img src="https://lh3.googleusercontent.com/pw/AP1GczN0uYdScO1y34hK8LyhTYR93LOxHGGNkeUcvXMYtrdTWjE0bbo94-clN36Ag_1Wt3SfSd-u-AN4eixagZGUdk2Rf1AvW7elWCjCBLY50nxfSI6JS4OW44cNvOFfLuzNfVgKcVu-3-j_cVTidRc7Ca-o=w1166-h1508-s-no-gm?authuser=0" style="width: 400px;"> <img src="https://lh3.googleusercontent.com/pw/AP1GczNnZKagbxk-X4JFMxrh3TBQplJ0LJbz5bW2OKMPvtFvgVHapqB8zWfJSlSE-TYo9at71kt7eLJ4SL-P6xNEP_FXKUc3CMvoKdCwIxFU9Ie28YW3DW-EUeIAv7KVYZJbf4UBE9xfK9re3b_gtKKaCYqO=w1164-h1508-s-no-gm?authuser=0" style="width: 400px;"> </div> **查询（Query）：** 利伯蒂医疗集团应当考虑哪些建议，以改善应收账款周转率与应收账款营收率？ **回答（Answer）：** [ "制定逾期账款跟踪日程，以确定账款逾期时长", "制定策略以处理难缠客户与逾期账款", "执行信贷政策，要求获取新客户的信贷参考信息，并针对每位客户评估信贷额度", "推出客户优惠政策以鼓励快速付款，例如折扣与附赠产品" ] **提示词（Prompt）：** 您是一名精通多模态检索增强生成（Retrieval-Augmented Generation, RAG）任务的助手。任务如下：给定来自PDF页面的一张图像，您需要生成用户可提出的、用于从大规模文档集合中检索信息的问题。问题需与该页面相关，既不能过于具体，也不能过于泛化。问题需与页面主题相关，且答案可在该页面中找到。请牢记，用户提出的问题是为了从包含多模态数据的大规模文档集合中获取部分信息。请生成用户在不知道该集合的存在与内容的情况下可能提出的问题。请为该问题生成答案，答案需可在页面中找到，且答案格式需为回答该问题的词语列表。为每个页面最多生成三组问答对，以字典格式输出，格式如下，**仅返回该字典，不得包含其他内容**： { "questions": [ { "question": "XXXXXX", "answer": ["YYYYYY"] }, { "question": "XXXXXX", "answer": ["YYYYYY"] }, { "question": "XXXXXX", "answer": ["YYYYYY"] }, ] } 其中XXXXXX为问题，['YYYYYY']为对应的答案列表，长度可任意。注意：若无法为该页面提出任何问题，请返回空列表。请专注于生成与页面相关的问题。以下为该页面： | 数据集 | #示例（查询-页面对） | 语言 | |------------------------------------------|-------------------------------|----------| | [DocVQA](https://www.docvqa.org/datasets/docvqa) | 39,463 | 英语 | | [InfoVQA](https://www.docvqa.org/datasets/infographicvqa) | 10,074 | 英语 | | [TATDQA](https://github.com/NExTplusplus/TAT-DQA) | 13,251 | 英语 | | [arXivQA](https://huggingface.co/datasets/MMInstruction/ArxivQA) | 10,000 | 英语 | | 涵盖广泛主题的爬取文档 | 45,940 | 英语 | | **总计** | **118,695** | **仅英语** | ### 加载数据集 python from datasets import load_dataset ds = load_dataset("5CD-AI/Viet-colpali_train_set-Gemini", split="train") ## 许可证本数据集遵循[vidore/colpali_train_set](https://huggingface.co/datasets/vidore/colpali_train_set)的许可协议。所有使用的学术数据集均经过二次采样与重新分发，且遵循其原始许可协议。本合成数据集由公开互联网数据创建，其视觉语言模型（Vision Language Model, VLM）合成查询无使用限制。 ## 参考文献 latex @misc{faysse2024colpaliefficientdocumentretrieval, title={ColPali: 基于视觉语言模型的高效文档检索}, author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo}, year={2024}, eprint={2407.01449}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2407.01449}, }

提供机构：

maas

创建时间：

2025-01-08

5,000+

优质数据集

54 个

任务类型

进入经典数据集