Chinese Multi-Document Question Answering Dataset (ChiMDQA)

Name: Chinese Multi-Document Question Answering Dataset (ChiMDQA)
Creator: 北京交通大学, 北京邮电大学, 北京工业大学, 福建福昕软件有限公司
Published: 2025-11-06 01:13:14
License: 暂无描述

arXiv2025-11-06 更新2025-11-07 收录

下载链接：

https://anonymous.4open.science/r/Foxit-CHiMDQA/

下载链接

链接失效反馈

官方服务：

资源简介：

ChiMDQA数据集是一个涵盖学术、教育、金融、法律、医疗和新闻六个领域的长文本数据集，包含6068个经过严格筛选的高质量问答对，分为十个细粒度的类别。数据集旨在为中文文档问答任务提供高质量的、多样化的数据资源，适用于文档理解、知识提取和智能问答系统等多个NLP任务。数据集的构建过程包括数据收集、问答对生成、数据审查和验证统计等多个阶段。

The ChiMDQA Dataset is a long-text dataset covering six domains: academia, education, finance, law, healthcare, and journalism. It contains 6068 strictly curated high-quality question-answer pairs, which are divided into ten fine-grained categories. This dataset aims to provide high-quality and diversified data resources for Chinese document question answering tasks, and is applicable to multiple NLP tasks such as document understanding, knowledge extraction and intelligent question answering systems. The construction pipeline of the dataset includes multiple stages such as data collection, question-answer pair generation, data review and verification statistics.

提供机构：

北京交通大学, 北京邮电大学, 北京工业大学, 福建福昕软件有限公司

创建时间：

2025-11-06

搜集汇总

数据集介绍

构建方式

在自然语言处理技术快速发展的背景下，ChiMDQA数据集通过严谨的多阶段流程构建而成。研究团队首先从网络爬取和人工采集的约15,000份多语言PDF文档中，基于文件格式、时效性和来源权威性等标准筛选出60份代表性文档，涵盖学术、教育、金融、法律、医疗和新闻六大领域。随后采用专门设计的提示模板，利用支持64k以上上下文窗口的大型语言模型生成初始问答对，并通过自动化评估与人工审核相结合的多层验证框架确保数据质量。该框架包含异构模型协同预筛选、上下文敏感性测试和难度校准机制，最终形成6,068个高质量问答对。

特点

作为面向中文文档问答的综合性数据集，ChiMDQA展现出显著的领域覆盖广度和问题类型深度。数据集囊括六大核心领域的长期文档，每个领域均包含具有代表性的专业文本，如学术论文、财务报告和法律文件等。基于显性与隐性事实理论框架，问题系统被精心划分为两个层级和十个细分子类型，既包含直接提取类的事实性问题，也涵盖需要推理和知识整合的开放性问题。这种分层设计不仅扩展了传统数据集的评估维度，还实现了对复杂任务类型的全面覆盖，为模型在多领域、多任务环境下的性能评估提供了坚实基础。

使用方法

在具体应用层面，ChiMDQA为中文文档问答系统的开发和评估提供了系统化框架。研究者可通过该数据集对非检索增强生成系统和检索增强生成系统进行综合性能测试，利用其提供的21项细粒度评估指标全面衡量模型表现。对于事实性问题，可采用正确率、未尝试率和错误率等指标进行评估；对于开放性问题，则适用METEOR、ROUGE-L和BERTScore等语义相似度度量。数据集支持对检索模块的声明召回率和上下文精确度，以及生成模块的忠实度、幻觉率等关键指标的分析，为优化问答系统在不同领域和问题类型上的表现提供详实依据。

背景与挑战

背景概述

随着自然语言处理技术的飞速发展，高质量中文文档问答数据集的需求日益凸显。为应对这一挑战，2025年由北京交通大学、北京邮电大学等高校与福昕软件联合研发的ChiMDQA数据集应运而生。该数据集聚焦学术、教育、金融、法律、医疗及新闻六大核心领域，涵盖6068组精心构建的问答对，通过十级细粒度问题分类体系，突破传统数据集在文档多样性与问题复杂度方面的局限。其创新性设计不仅填补了中文长文档多领域问答的空白，更为智能客服、知识管理等实际应用场景提供了重要支撑。

当前挑战

ChiMDQA致力于解决多领域长文档问答的核心难题：首先，在领域问题层面，需应对跨学科专业知识的语义理解挑战，如法律条文逻辑解析与医疗术语的精准匹配；其次，构建过程中面临多源PDF文档的结构化提取困境，包括表格嵌套与跨页公式的完整性保留。同时，细粒度问题分类要求模型兼具事实检索与隐含推理能力，而高质量数据标注需平衡自动化生成与人工校验的精度矛盾，这些因素共同构成了该数据集的技术攻坚重点。

常用场景

经典使用场景

在自然语言处理领域，ChiMDQA数据集为中文多文档问答系统提供了标准化评估基准。该数据集覆盖学术、教育、金融、法律、医疗和新闻六大领域，包含6068个高质量问答对，支持从简单事实检索到复杂推理的十种问题类型。研究者在开发文档理解模型时，常利用其长文档处理能力和细粒度分类体系验证模型在跨领域场景下的综合表现。

衍生相关工作

基于ChiMDQA衍生的经典研究包括多模态长文档理解框架MMLongBench-Doc的适配改进，以及检索增强生成技术在中文场景下的优化探索。研究者通过该数据集验证了GLM-4、GPT-4等大语言模型在中文长文档处理中的潜力，并推动了像RAGChecker这样的细粒度评估工具在中文问答领域的发展与应用。

数据集最近研究