five

ViDoSeek|文档检索数据集|视觉问答数据集

收藏
huggingface2025-02-27 更新2025-02-28 收录
文档检索
视觉问答
下载链接:
https://huggingface.co/datasets/autumncc/ViDoSeek
下载链接
链接失效反馈
资源简介:
ViDoSeek数据集是一个针对视觉丰富文档检索-推理-回答任务设计的基准,完全适用于在大型文档语料库中评估RAG。该数据集包含单跳和多跳查询,提供了多样化的挑战。另外,还提供了经过他们管道优化的SlideVQA-Refined数据集,适用于评估检索增强生成任务。
创建时间:
2025-02-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
ViDoSeek数据集的构建,旨在针对视觉丰富的文档检索-推理-回答任务,全面适应大规模文档语料库中RAG的评价需求。该数据集的构建依托于多文档上下文,以及内容类型尤其是布局类别的复杂性,包含单跳和多跳查询,以展现多样化的挑战。
使用方法
用户可以通过访问数据集的JSON格式注释来使用ViDoSeek。每个注释包含一个唯一标识符以区分不同的查询,查询内容,参考答案,以及元信息,如原始文件名、参考页码、数据源类型和查询类型。这些信息使得用户能够有效地进行数据集的加载、解析和应用,进而对检索增强生成模型进行评估和优化。
背景与挑战
背景概述
ViDoSeek数据集是一项针对视觉丰富文档检索-推理-回答任务而专门设计的基准,适用于评估大型文档语料库中的检索增强生成(RAG)模型。该数据集由Qiuchen Wang等研究人员于2025年创建,并在arXiv上发表了相关论文。ViDoSeek数据集的特色在于其高难度级别,这主要归因于多文档上下文和内容类型的复杂性质,尤其是布局类别。该数据集包含单跳和多跳查询,为研究提供了丰富的挑战多样性。
当前挑战
在研究领域,ViDoSeek数据集面临的挑战主要包括:1)如何处理多文档上下文中的复杂信息检索任务,尤其是当涉及到非结构化或半结构化数据时;2)如何应对布局类别中的视觉信息处理问题,这些信息通常更加复杂和难以解析;3)构建过程中遇到的挑战,如确保单跳和多跳查询的平衡,以及如何准确标注和验证参考答案。此外,该数据集还旨在评估检索增强生成任务,这本身就是一个技术挑战,需要模型具备高度的理解和推理能力。
常用场景
经典使用场景
ViDoSeek数据集专为视觉丰富文档检索-推理-回答任务设计,其核心应用场景在于评估大型文档语料库中的检索增强生成(RAG)能力。该数据集因其多文档上下文及内容类型,尤其是布局类别的复杂性质,而具备了高难度的特性。其包含单跳和多跳查询,为研究者和工程师提供了丰富多样的挑战。
解决学术问题
ViDoSeek数据集解决了学术研究中如何有效评估文档检索与内容生成结合的问题。它提供了针对视觉文档的检索增强生成任务的评价基准,对于理解文档内容、推理过程以及生成准确回答的研究具有重大意义。该数据集的引入,为信息检索和自然语言处理领域带来了新的研究方向和挑战。
实际应用
在实际应用中,ViDoSeek数据集可用于提升文献搜索系统的智能化水平,辅助专业人士快速定位文档中的关键信息,进而提高科研效率。此外,它也可被应用于构建更加智能的问答系统,为用户提供精准的答案。
数据集最近研究
最新研究方向
ViDoSeek数据集为视觉丰富的文档检索-推理-回答任务量身定制,旨在评估大型文档语料库中检索增强生成(RAG)的性能。其研究方向的独特之处在于,它将多文档上下文与复杂的内容类型相结合,尤其是布局类别,从而提升了任务的难度。该数据集不仅包含单跳查询,也涵盖多跳查询,为研究者提供了多样化的挑战。此外,通过其流程精炼的SlideVQA-Refined数据集,也适合于评估检索增强生成任务。ViDoSeek的问世,对视觉文档处理领域的研究具有深远影响,它不仅推动了文档检索与生成任务的技术进步,也为相关算法的评估提供了新的基准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录