DOCBENCH

Name: DOCBENCH
Creator: 上海交通大学，腾讯AI实验室
Published: 2024-07-15 21:17:42
License: 暂无描述

arXiv2024-07-15 更新2024-07-17 收录

下载链接：

https://github.com/Anni-Zou/DocBench

下载链接

链接失效反馈

官方服务：

资源简介：

DOCBENCH是由上海交通大学和腾讯AI实验室联合创建的一个用于评估大型语言模型（LLM）在文档阅读系统中的性能的基准数据集。该数据集包含229个真实文档和1,102个问题，涵盖学术、金融、政府、法律和新闻五个领域。数据集的创建过程包括人工标注和合成问题生成，确保了数据的质量和多样性。DOCBENCH旨在解决在复杂文档处理中，如何准确理解和回答用户查询的问题，特别是在多模态信息理解和长文本上下文处理方面。

DOCBENCH is a benchmark dataset jointly created by Shanghai Jiao Tong University and Tencent AI Lab, designed to evaluate the performance of large language models (LLMs) in document reading systems. This dataset includes 229 real-world documents and 1,102 questions, covering five domains: academia, finance, government, law, and news. The development of DOCBENCH involves manual annotation and synthetic question generation, which ensures the dataset's quality and diversity. DOCBENCH aims to address the challenges of accurately comprehending user queries and providing appropriate responses in complex document processing scenarios, particularly in terms of multimodal information understanding and long-text context handling.

提供机构：

上海交通大学，腾讯AI实验室

创建时间：

2024-07-15

原始信息汇总

DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

简介

DocBench 是一个基准测试，用于评估基于大型语言模型的文档阅读系统。它以原始PDF文件和相关问题作为输入，目标是生成相应的文本答案。该数据集包含229份真实文档和1,102个问题，涵盖五个不同领域和四种主要类型的问题。

数据集的构建流程包括三个阶段：

文档收集
问答对生成
质量检查

数据集概览

数据集可以从以下链接下载：https://drive.google.com/drive/folders/1yxhF1lFF2gKeTNc8Wh0EyBdMT3M4pDYr?usp=sharing

实现

下载

下载用于评估的模型： bash bash download.sh

YOUR_OWN_DIR：保存下载模型的目录
MODEL_TO_DOWNLOAD：来自Hugging Face的模型名称

运行

首先，部署vLLM作为服务器： bash python -m vllm.entrypoints.openai.api_server --model your_merged_model_output_path --served-model-name my_model --worker-use-ray --tensor-parallel-size 8 --port 8081 --host 0.0.0.0 --trust-remote-code --max-model-len 8192

然后，运行模型进行推理： bash python run.py --system gpt4 --model_dir MODEL_DIR # 如果使用基于API的模型，请注释此行 --initial_folder 0

评估

评估结果： bash python evaluate.py --system gpt4 --resume_id 0

注意：可能会出现一些意外输出的警告，可以根据警告提示检查输出。

引用

如果发现此工作有用，请引用我们的论文：

@misc{zou2024docbenchbenchmarkevaluatingllmbased, title={DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems}, author={Anni Zou and Wenhao Yu and Hongming Zhang and Kaixin Ma and Deng Cai and Zhuosheng Zhang and Hai Zhao and Dong Yu}, year={2024}, eprint={2407.10701}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.10701}, }

搜集汇总

数据集介绍

构建方式

DOCBENCH 数据集的构建采用了精心设计的流程，包括招募人类注释员和生成合成问题的步骤。数据集收集了来自五个不同领域的 229 篇真实文档，并围绕这些文档生成了 1,102 个问题，涵盖了四种主要类型的问题。数据集的构建过程分为三个阶段：首先从公开可访问的在线资源中爬取文档，然后利用 GPT-4 和人工注释员生成相应的 QA 对，最后通过自动过滤和人工审查来验证生成实例的质量。

使用方法

使用 DOCBENCH 数据集的方法包括将原始 PDF 文件和配套问题作为输入，并生成相应的文本答案。数据集的评估过程采用了 GPT-4 作为自动评估器，并使用准确性（Acc.）作为衡量系统性能的指标。通过这种方式，DOCBENCH 为评估和比较不同 LLM 基于文档阅读系统提供了一个标准化的基准，有助于推动该研究领域的未来进展。

背景与挑战

背景概述

近年来，大型语言模型（LLM）的开发者对基于LLM的文档阅读系统产生了浓厚的兴趣，这些系统允许用户上传自己的文档并提出与文档内容相关的问题，超越了简单的阅读理解任务。DOCBENCH数据集由上海交通大学和腾讯AI实验室的研究人员于2024年创建，旨在评估这些系统的性能。该数据集包含了229个真实文档和1102个问题，涵盖了五个不同的领域和四种主要类型的问题。DOCBENCH的创建填补了评估LLM-based文档阅读系统在现实世界场景中性能的空白，对于推动该领域的研究进展具有重要意义。

当前挑战

DOCBENCH数据集面临的挑战主要包括：1) 多模态和元数据信息的解读：当前的方法往往缺乏对全局信息的关注，导致在处理多模态和元数据问题时性能相对较低；2) 处理长文档的能力：LLM-based系统在处理长文档时面临上传限制，而parse-then-read管道受限于模型的上下文长度，导致信息损失；3) 对用户提供的文档的忠实度：现有的大多数文档阅读系统在面对基于提供的文档无法回答的问题时表现不佳，缺乏对给定文档的忠实度。这些挑战对于未来文档阅读系统的发展具有重要意义，需要进一步研究和改进。

常用场景

经典使用场景

DOCBENCH 数据集旨在评估基于大型语言模型 (LLM) 的文档阅读系统，这些系统能够处理用户上传的文档并回答与文档内容相关的问题。该数据集包括 229 个真实文档和 1,102 个问题，涵盖了五个不同的领域：学术、金融、政府、法律和新闻。这些文档和问题旨在模拟现实世界场景，其中每个输入都由一个文档和与之一到多个相关的问题组成，每个问题都标注有一个标准答案。通过这种方式，DOCBENCH 为评估 LLM 基于文档阅读系统的性能提供了一个标准化的基准。

解决学术问题

DOCBENCH 数据集解决了现有 LLM 基于文档阅读系统缺乏标准化基准的问题。由于这些系统通常需要处理复杂的文档结构、多模态信息、长文本上下文和嵌入图像，因此它们需要具备一系列处理技能。DOCBENCH 的引入填补了这一空白，为研究人员提供了一个全面的基准，可以更准确地评估和比较不同系统的性能，从而推动该领域的未来进展。

实际应用

DOCBENCH 数据集在实际应用中具有重要意义。它可以帮助开发人员改进和优化 LLM 基于文档阅读系统的性能，使其能够更准确地理解和回答用户的问题。此外，DOCBENCH 还可以用于评估和比较不同系统的性能，从而帮助用户选择最适合自己的系统。总之，DOCBENCH 数据集在推动 LLM 基于文档阅读系统的发展和实际应用方面发挥着重要作用。

数据集最近研究