KnowMT-Bench
收藏arXiv2025-09-26 更新2025-11-21 收录
下载链接:
https://github.com/hardenyu21/KnowMT-Bench
下载链接
链接失效反馈官方服务:
资源简介:
KnowMT-Bench是一个专为评估大型语言模型在多轮对话中的知识密集型长文本问答能力而设计的基准数据集。该数据集涵盖了医学、金融和法律等领域,共包含801个经过证据验证的长文本问答实例。数据集通过模拟真实的人机交互,要求模型根据逻辑渐进的问题序列生成自己的对话历史,并评估其事实能力和信息传递效率。该数据集的创建旨在帮助研究人员评估和提升大型语言模型在知识密集型应用中的会话事实能力。
提供机构:
香港科技大学(广州), 香港科技大学, 大阪大学
创建时间:
2025-09-26
搜集汇总
数据集介绍

构建方式
在知识密集型多轮对话评估领域,KnowMT-Bench通过系统化流程构建了首个专注于长文本问答的基准数据集。该数据集首先从医学、金融和法律三大专业领域收集了801个高质量单轮问答对,并基于权威来源构建了证据支撑的参考答案。随后,通过分析真实对话语料中的轮次分布规律,设计了渐进式多轮问题序列生成机制,采用大模型辅助与人工校验相结合的方式,确保问题序列符合逻辑递进性、意图一致性和答案无泄漏三大原则,最终形成具有动态评估特性的多轮对话框架。
特点
该数据集的核心特征体现在多维度评估体系与真实场景模拟的深度融合。其创新性地设计了基于自然语言推理的双阶段自动化评估流程,通过原子事实分解与双向蕴含检测,实现了对模型事实准确性与信息传递效率的量化评估。区别于传统单轮评测基准,该数据集采用动态上下文生成机制,要求模型在自生成对话历史的基础上进行最终回答,有效模拟了真实交互中上下文噪声累积的挑战。跨领域覆盖的801个对话实例兼具专业深度与广度,为评估大模型在知识密集型场景下的对话鲁棒性提供了全面支撑。
使用方法
使用该数据集时需遵循其动态评估范式,首先将单轮问题序列输入目标模型以自生成多轮对话历史,随后提取最终轮次的长文本回答进行关键指标计算。评估过程依托经过人工验证的自动化流水线,通过分解生成回答与参考答案为原子陈述,分别计算事实性维度(精确率、召回率)、可靠性维度(错误主张率、误表征率)与信息传递效率维度(单位事实token成本)三类核心指标。研究者可通过对比单轮与多轮设置下的性能差异,深入分析模型对对话历史的噪声敏感度,并进一步探索检索增强生成等干预策略对性能衰退现象的缓解效果。
背景与挑战
背景概述
KnowMT-Bench由香港科技大学(广州)等机构的研究团队于2025年提出,是首个专注于知识密集型多轮长文本问答的基准测试。该数据集针对医学、金融和法律等专业领域,旨在评估大语言模型在复杂多轮对话中整合多源事实生成段落级答案的能力。其创新性在于通过动态评估框架模拟真实咨询场景,要求模型基于逻辑递进的问题序列自主生成对话历史,填补了现有基准在知识密集型多轮长文本问答评估上的空白。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决多轮对话中上下文噪声导致的模型事实性退化问题,以及随着对话轮次增加模型信息传递效率下降的难题;在构建过程中,需克服高质量多轮问答数据稀缺的困难,确保问题序列符合逻辑递进性且避免答案泄露,同时建立基于自然语言推理的自动化评估流程并保证其与人工标注的一致性。
常用场景
经典使用场景
在知识密集型长形式问答研究领域,KnowMT-Bench作为首个专门针对多轮对话场景的基准测试工具,其经典应用体现在系统评估大语言模型在医学、金融和法律等专业领域的多轮对话能力。该数据集通过构建逻辑递进的问题序列,模拟真实咨询场景中用户逐步深入提问的交互模式,要求模型在动态生成的对话历史基础上生成最终回合的段落级答案。这种评估机制能够有效检验模型在复杂对话语境下保持事实一致性的能力,为研究多轮对话对模型性能的影响提供了标准化测试环境。
解决学术问题
该数据集有效解决了现有基准测试在知识密集型多轮长形式问答评估中的关键缺陷。传统单轮问答基准无法捕捉对话历史引入的上下文噪声对模型事实性能力的负面影响,而现有多轮对话基准又往往侧重于指令遵循或公平性等正交能力评估。KnowMT-Bench通过精心设计的动态评估设置和经过人工验证的自动化评估流程,首次系统性地量化了多轮语境下模型事实性能力和信息传递效率的退化现象,为理解对话历史对生成质量的影响机制提供了实证基础,推动了知识密集型对话系统的可靠性研究。
衍生相关工作
基于KnowMT-Bench的实证发现已催生多个重要研究方向。检索增强生成技术被证明能有效缓解多轮对话中的事实性退化问题,相关研究探索了不同检索策略在对话各阶段的优化方案。针对对话历史噪声的识别与过滤机制成为新的研究热点,包括基于注意力权重的上下文重要性分析和动态上下文修剪方法。领域自适应微调策略也得到深入探讨,如医疗领域的HuatuoGPT模型展示了专业知识注入对提升多轮对话鲁棒性的显著效果。这些衍生工作共同推动了知识密集型对话系统在事实性和效率维度的持续进步。
以上内容由遇见数据集搜集并总结生成



