DocPuzzle

Name: DocPuzzle
Creator: 华为诺亚方舟实验室, 华为技术有限公司
Published: 2025-02-25 11:29:53
License: 暂无描述

arXiv2025-02-25 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.17807v1

下载链接

链接失效反馈

官方服务：

资源简介：

DocPuzzle是一个由华为诺亚方舟实验室和华为技术有限公司共同创建的中文长语境推理基准数据集，包含100个涉及多步骤推理的专家级问答问题。这些问题基于现实世界的长文档，涵盖学术文章、财务报告等多个领域。数据集的构建注重于确保问题的质量和难度，通过人类与AI合作的方式进行注释和验证。每个样本包括一个文档、一个问题、一个答案和一个检查表，检查表用于评估推理过程是否正确，以减少LLM的猜测偏差。

DocPuzzle is a Chinese long-context reasoning benchmark dataset co-developed by Huawei Noah's Ark Lab and Huawei Technologies Co., Ltd. It contains 100 expert-level question-answering tasks involving multi-step reasoning. These tasks are sourced from real-world long-form documents spanning multiple domains including academic articles and financial reports. The development of this dataset places emphasis on ensuring the quality and difficulty of the questions, with annotation and validation conducted through a human-AI collaborative approach. Each sample comprises a document, a question, an answer, and a checklist, which is designed to assess the correctness of the reasoning chain and mitigate the guessing bias of Large Language Models (LLMs).

提供机构：

华为诺亚方舟实验室, 华为技术有限公司

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

DocPuzzle数据集的构建采用了严谨的流程，确保了数据集的质量和复杂性。首先，数据集收集了来自文学、新闻、政策、金融和科学论文等五个领域的文档。其次，数据标注遵循严格的指南，要求问题必须涉及至少两种推理操作，如时间推理、算术推理等，并排除通过单一片段检索即可回答的问题。最后，数据验证和修订过程采用了人机协作的方式进行，通过多次迭代和独立评审，确保最终答案的准确性和客观性。

特点

DocPuzzle数据集具有以下特点：1）多个真实领域：数据集包含来自不同领域的文档，如学术论文、财务报告等；2）挑战性推理：问题需要多步推理操作，包括算术推理、时间推理等；3）过程感知评估：数据集引入了一个创新的评估框架，通过清单引导的过程分析来减少猜测偏差。

使用方法

使用DocPuzzle数据集时，首先需要了解数据集的结构和内容。然后，可以选择合适的模型进行评估，包括慢思考推理模型和指令模型。最后，可以使用数据集中的清单来评估模型的推理过程，从而更好地理解模型的推理能力。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速进化，其在长文本处理和复杂推理方面的能力得到了前所未有的提升，这为机器智能的边界扩展和通用人工智能（AGI）的实现提供了新的可能性。然而，现有的LLMs评估报告主要集中在结构化的数学问题解决和编码任务上，与真实世界的推理需求存在较大差距。DocPuzzle数据集应运而生，它是一个由华为诺亚方舟实验室和华为公司共同构建的基准测试，旨在评估LLMs在处理长文本和进行复杂推理方面的能力。该数据集包含100个专家级的QA问题，需要多步推理来处理真实世界中的长文本。为了保证任务的质量和复杂性，DocPuzzle实现了一个由人工和AI协作的标注验证流程，并通过清单引导的过程分析来减轻猜测偏差，为评估LLMs的推理能力设立了新的标准。

当前挑战

DocPuzzle数据集面临的主要挑战包括：1) 如何确保LLMs在处理长文本时能够进行多步推理，从而解决现实世界中的复杂问题；2) 如何减轻LLMs在回答问题时可能存在的猜测偏差，确保推理过程的正确性；3) 如何评估LLMs在不同领域中的推理能力，以及如何提高其在这些领域的泛化能力。

常用场景

经典使用场景

DocPuzzle数据集是一个专门设计用于评估大型语言模型（LLMs）在处理长文本情境下的推理能力的基准测试。它包含100个需要多步推理的专家级问答问题，这些问题涉及多个现实世界领域的长文本文档。该数据集的独特之处在于其引入的创新评估框架，通过清单引导的过程分析来减少猜题偏差，从而为评估LLMs的推理能力建立了新的标准。

解决学术问题

DocPuzzle数据集解决了现有长文本推理基准测试的三个主要局限性：简化推理、格式驱动评估和领域单调性。这些问题导致现有评估的鉴别力受损，特别是在评估接近人类水平性能的先进模型时。DocPuzzle通过引入多步推理操作、现实世界应用和多领域覆盖，提高了评估的准确性和挑战性。此外，该数据集通过清单引导的过程分析评估，而不是仅仅依赖最终答案的正确性，从而减少了LLMs的猜题偏差。

衍生相关工作

DocPuzzle数据集的发布促进了长文本推理领域的研究，并衍生出许多相关工作。这些工作包括：1）开发新的长文本推理基准测试，例如LongBench和InfiniteBench；2）研究LLMs的推理能力，例如Nocha和RuleArena；3）探索LLMs的泛化能力，例如DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B。这些工作不仅提高了LLMs在长文本推理任务上的性能，还加深了对LLMs推理能力的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集