five

synthetic_rse_restaurant_filtered_v1.0_multilingual

收藏
Hugging Face2025-03-18 更新2025-03-19 收录
下载链接:
https://huggingface.co/datasets/vidore/synthetic_rse_restaurant_filtered_v1.0_multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
Vidore Benchmark 2 - ESG Restaurant数据集是多语言视觉检索基准,专注于快餐行业的ESG报告。数据集包括30个文档、228个查询、1538个页面和888个相关性判断。支持英语、法语、德语和西班牙语查询。
创建时间:
2025-03-08
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集作为Vidore Benchmark 2系列的一部分,专注于快餐行业的环境、社会和治理(ESG)报告。数据集的构建过程包括从原始法语文档中提取查询,并通过GPT-4模型将其翻译为英语、法语、德语和西班牙语。数据集包含文档、查询、相关性判断(qrels)以及页面图像,形成了一个多语言、多模态的视觉检索基准。
特点
该数据集的特点在于其多语言性和多模态性,涵盖了四种语言的查询和丰富的视觉信息。数据集包含30个文档、228个查询、1538个页面图像以及888个相关性判断,平均每个查询对应3.9个页面。这种结构为视觉检索任务提供了多样化的评估场景,特别适用于文档图像理解的研究。
使用方法
该数据集主要用于评估视觉检索系统的性能,特别是针对文档图像理解的应用场景。用户可以通过`vidore-benchmark`命令行工具进行模型评估,具体步骤包括安装相关工具包并运行评估命令。数据集的使用方法详细记录在官方文档中,用户可根据需求进行灵活配置和扩展。
背景与挑战
背景概述
synthetic_rse_restaurant_filtered_v1.0_multilingual数据集是Vidore Benchmark 2系列的一部分,专注于评估视觉检索应用,特别是与快餐行业的环境、社会和治理(ESG)报告相关的任务。该数据集由ILLUIN Technology等机构支持,创建于2024年,旨在为多语言环境下的文档图像理解提供基准。数据集包含30份文档、228个查询、1538页图像以及888个相关性判断,涵盖了英语、法语、德语和西班牙语等多种语言。通过GPT-4模型进行翻译,确保了多语言查询的准确性和一致性。该数据集为视觉检索系统的性能评估提供了重要资源,推动了文档图像理解领域的研究进展。
当前挑战
该数据集在解决视觉检索任务时面临多重挑战。首先,多语言查询的翻译和一致性处理是一个复杂问题,尤其是在跨语言检索中,如何确保语义的准确传递和检索结果的可靠性。其次,文档图像的理解和检索需要高精度的模型支持,尤其是在处理快餐行业ESG报告这类复杂文档时,如何提取关键信息并匹配查询需求。此外,数据集的构建过程中,如何平衡文档数量、查询多样性和相关性判断的准确性,也是一个技术难点。这些挑战不仅考验了模型的性能,也对数据集的构建方法和评估标准提出了更高要求。
常用场景
经典使用场景
在视觉检索领域,synthetic_rse_restaurant_filtered_v1.0_multilingual数据集被广泛用于评估多语言环境下的文档图像理解系统。该数据集通过提供多语言查询、文档图像及相关性判断,为研究人员提供了一个标准化的测试平台,特别适用于评估模型在处理多语言文档时的检索性能。
衍生相关工作
基于该数据集,研究人员开发了多种视觉检索模型,如ColPali模型,该模型通过结合视觉和语言信息,显著提升了多语言文档检索的准确性。此外,该数据集还促进了多语言信息检索领域的研究,推动了相关算法和工具的开发与优化。
数据集最近研究
最新研究方向
近年来,随着环境、社会和治理(ESG)报告在快消品行业中的重要性日益凸显,synthetic_rse_restaurant_filtered_v1.0_multilingual数据集在视觉检索领域的研究方向主要集中在多语言环境下的文档图像理解与检索。该数据集通过提供多语言查询、文档图像及相关性判断,为研究者提供了一个独特的平台,用于评估和优化视觉检索系统在处理多语言文档时的性能。特别是在跨语言检索和图像文本对齐方面,该数据集的应用推动了多模态模型的发展,如ColPali模型,其在文档检索任务中的高效性得到了广泛验证。此外,该数据集的使用还促进了ESG报告自动化分析技术的发展,为企业提供了更高效的决策支持工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作