DOCBENCH
收藏DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems
简介
DocBench 是一个基准测试,用于评估基于大型语言模型的文档阅读系统。它以原始PDF文件和相关问题作为输入,目标是生成相应的文本答案。该数据集包含229份真实文档和1,102个问题,涵盖五个不同领域和四种主要类型的问题。
数据集的构建流程包括三个阶段:
- 文档收集
- 问答对生成
- 质量检查
数据集概览
数据集可以从以下链接下载:https://drive.google.com/drive/folders/1yxhF1lFF2gKeTNc8Wh0EyBdMT3M4pDYr?usp=sharing
实现
下载
下载用于评估的模型: bash bash download.sh
YOUR_OWN_DIR:保存下载模型的目录MODEL_TO_DOWNLOAD:来自Hugging Face的模型名称
运行
首先,部署vLLM作为服务器: bash python -m vllm.entrypoints.openai.api_server --model your_merged_model_output_path --served-model-name my_model --worker-use-ray --tensor-parallel-size 8 --port 8081 --host 0.0.0.0 --trust-remote-code --max-model-len 8192
然后,运行模型进行推理: bash python run.py --system gpt4 --model_dir MODEL_DIR # 如果使用基于API的模型,请注释此行 --initial_folder 0
评估
评估结果: bash python evaluate.py --system gpt4 --resume_id 0
注意:可能会出现一些意外输出的警告,可以根据警告提示检查输出。
引用
如果发现此工作有用,请引用我们的论文:
@misc{zou2024docbenchbenchmarkevaluatingllmbased, title={DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems}, author={Anni Zou and Wenhao Yu and Hongming Zhang and Kaixin Ma and Deng Cai and Zhuosheng Zhang and Hai Zhao and Dong Yu}, year={2024}, eprint={2407.10701}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.10701}, }

- 1DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems上海交通大学,腾讯AI实验室 · 2024年



