MT-Eval
收藏arXiv2024-01-30 更新2024-06-21 收录
下载链接:
https://github.com/KwanWaiChung/MT-Eval
下载链接
链接失效反馈官方服务:
资源简介:
MT-Eval是一个用于评估大型语言模型多轮对话能力的数据集,由香港中文大学和华为诺亚方舟实验室共同创建。该数据集包含1170个多轮查询,旨在通过分析人与语言模型之间的对话,评估模型在多轮交互中的表现。MT-Eval通过增强现有数据集或使用GPT-4创建新示例来构建,以避免数据泄露。数据集涵盖了多种实际应用场景,旨在解决大型语言模型在多轮对话中的性能评估问题。
MT-Eval is a benchmark dataset for evaluating the multi-turn dialogue capabilities of large language models (LLMs), jointly developed by The Chinese University of Hong Kong and Huawei Noah's Ark Lab. It contains 1,170 multi-turn query instances, designed to evaluate models' performance in multi-turn interactive conversations by analyzing dialogues between human users and language models. MT-Eval is constructed by augmenting existing datasets or generating new dialogue examples using GPT-4 to avoid data leakage. The dataset covers a diverse range of real-world application scenarios, and is specifically tailored to address the performance evaluation challenges for large language models in multi-turn dialogue settings.
提供机构:
香港中文大学
创建时间:
2024-01-30
搜集汇总
数据集介绍

构建方式
在大型语言模型多轮对话能力评估领域,MT-Eval数据集的构建体现了严谨的学术方法。该数据集通过对真实人机对话语料的分析,归纳出回忆、扩展、细化和跟进四种核心交互模式。为避免数据泄露,研究团队采用双轨策略:一方面对现有数据集进行对话格式的转换与增强,另一方面利用GPT-4生成全新实例,并辅以人工审核确保实例在难度、相关性和原创性上的质量。具体而言,扩展与细化任务将文档型NLP任务转化为多轮对话;回忆任务则设计了包含文档分类和全局指令跟随的双重挑战;跟进任务则通过为MT-Bench基准增加三轮对话实现深度扩展。
特点
MT-Eval数据集的核心特征在于其系统性和挑战性。它包含168个对话会话和1170个对话轮次,平均每轮对话包含6.96个回合,覆盖了文档处理、内容创作和信息检索等现实场景。数据集通过四种精心设计的任务类型,全面评估模型在长距离信息保持、主题深入探索、指令动态调整以及基于历史响应的连贯问答等方面的能力。尤为重要的是,该数据集为绝大多数多轮查询构建了对应的单轮版本,使得研究者能够精确量化模型在单轮与多轮设置下的性能差异,从而揭示多轮对话特有的挑战,如相关内容的距离效应和错误传播敏感性。
使用方法
使用MT-Eval进行评估时,需遵循其设定的标准化流程。评估者需将待测大型语言模型置于多轮对话环境中,依次处理回忆、扩展、细化和跟进四类任务。模型响应质量的评估主要依赖GPT-4作为评判者,采用零样本提示并结合思维链方法,从帮助性、相关性、准确性等多个维度进行1至10分的整数评分。对于回忆任务中的部分子任务,则采用基于规则的自动评估方法。为了全面衡量模型的多轮对话能力,除了评估多轮设置下的绝对性能,还必须并行评估其在对应单轮查询上的表现,通过对比两者差距来深入分析模型在多轮交互中的能力衰减与鲁棒性。数据集与代码已公开,便于复现和后续研究。
背景与挑战
背景概述
随着大语言模型在复杂多轮对话场景中的应用日益广泛,现有评估基准多聚焦于单轮交互,难以全面衡量模型在多轮对话中的综合能力。为此,香港中文大学与华为诺亚方舟实验室的研究团队于2024年联合推出了MT-Eval基准,旨在系统评估大语言模型在多轮对话中的核心能力。该基准通过分析真实人机对话数据,归纳出回忆、扩展、细化和跟进四种典型交互模式,并构建了涵盖168个对话、1170轮次的高质量测试集。MT-Eval不仅填补了多轮对话评估领域的空白,还为模型优化提供了关键洞察,推动了对话系统向更自然、鲁棒的方向发展。
当前挑战
MT-Eval所针对的核心领域问题在于大语言模型在多轮对话中保持上下文连贯性与指令遵循能力的不足。具体挑战包括:模型在长距离信息检索时性能显著下降,难以有效回忆早期对话内容;错误传播敏感性高,前期生成的错误响应会误导后续输出;此外,模型在遵循复杂渐进指令时表现不稳定,尤其在计数、格式约束等任务中易出现偏差。数据构建过程中,需克服现有数据集单轮主导的局限,通过GPT-4生成与人工审核相结合的方式,确保多轮查询的多样性与真实性,同时避免数据泄露问题。
常用场景
经典使用场景
在大型语言模型评估领域,MT-Eval 作为多轮对话能力评估的基准,其经典使用场景在于系统性地衡量模型在复杂、连续交互中的表现。该数据集通过模拟真实人机对话中的四种核心交互模式——回忆、扩展、细化和跟进,构建了涵盖文档处理、内容创作和信息检索等多种现实任务的多轮对话测试集。研究者利用 MT-Eval 能够深入探究模型在长上下文依赖、指令遵循一致性以及错误传播鲁棒性等方面的实际能力,为模型的多轮对话性能提供全面而细致的评估框架。
解决学术问题
MT-Eval 主要解决了当前大型语言模型评估中普遍存在的单轮评估偏差问题,填补了多轮对话能力系统性评测的空白。该数据集通过构建具有不同交互模式和任务难度的多轮对话实例,使得研究者能够量化模型在连续对话中的性能衰减现象,并深入分析其内在原因,如相关信息距离增大和错误传播敏感性等关键因素。这不仅揭示了现有模型在多轮交互中的固有局限,也为开发更鲁棒的对话模型提供了明确的改进方向和理论依据。
衍生相关工作
MT-Eval 的提出促进了多轮对话评估领域的系列研究工作。其构建的多轮交互分类框架和评估方法论为后续基准如 Multi-Turn Benchmark 的设计提供了参考。基于该数据集揭示的性能衰减现象,研究者开展了针对性的模型改进工作,例如通过增强长程注意力机制、引入对话状态跟踪模块或设计抗错误传播的训练策略来提升模型的多轮对话鲁棒性。同时,MT-Eval 中采用的基于 GPT-4 的自动化评估方法也被后续研究借鉴和优化,推动了语言模型评估范式的演进。
以上内容由遇见数据集搜集并总结生成



