wckwan/MT-Eval
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wckwan/MT-Eval
下载链接
链接失效反馈官方服务:
资源简介:
MT-Eval是一个用于评估大型语言模型(LLMs)多轮对话能力的综合基准测试。现有的基准测试主要关注单轮对话评估,而MT-Eval通过分析人类与LLM的对话,将交互模式分为四类:回忆、扩展、精炼和跟进。数据集包含1170个多轮查询,并创建了单轮版本以进行比较。数据集的统计信息包括每类对话的平均轮数、提示和响应的平均字数等。数据集可用于评估模型在多轮对话中的表现,并分析影响多轮对话能力的关键因素。
MT-Eval是一个用于评估大型语言模型(LLMs)多轮对话能力的综合基准测试。现有的基准测试主要关注单轮对话评估,而MT-Eval通过分析人类与LLM的对话,将交互模式分为四类:回忆、扩展、精炼和跟进。数据集包含1170个多轮查询,并创建了单轮版本以进行比较。数据集的统计信息包括每类对话的平均轮数、提示和响应的平均字数等。数据集可用于评估模型在多轮对话中的表现,并分析影响多轮对话能力的关键因素。
提供机构:
wckwan
原始信息汇总
数据集概述
数据集名称
MT-Eval
数据集配置
- refinement_single: 包含单轮对话的细化任务数据。
- refinement_multi: 包含多轮对话的细化任务数据。
- expansion_single: 包含单轮对话的扩展任务数据。
- expansion_multi: 包含多轮对话的扩展任务数据。
- follow-up_single: 包含单轮对话的跟进任务数据。
- follow-up_multi: 包含多轮对话的跟进任务数据。
- recollection_single_cls: 包含单轮对话的文档分类任务数据。
- recollection_multi_cls: 包含多轮对话的文档分类任务数据。
- recollection_single_global-inst: 包含单轮对话的全局指令跟随任务数据。
- recollection_multi_global-inst: 包含多轮对话的全局指令跟随任务数据。
数据文件路径
- refinement_single:
refinement_single.jsonl - refinement_multi:
refinement_multi.jsonl - expansion_single:
expansion_single.jsonl - expansion_multi:
expansion_multi.jsonl - follow-up_single:
follow-up_single.jsonl - follow-up_multi:
follow-up_multi.jsonl - recollection_single_cls:
recollection_single_cls.jsonl - recollection_multi_cls:
recollection_multi_cls.jsonl - recollection_single_global-inst:
recollection_single_global-inst.jsonl - recollection_multi_global-inst:
recollection_multi_global-inst.jsonl
许可
MIT
语言
英语(en)
数据集大小
1K<n<10K
数据集统计信息
对话统计
| 统计项 | 回忆 | 扩展 | 细化 | 跟进 | 总计 |
|---|---|---|---|---|---|
| 平均对话轮数 | 10 | 7.00 | 12.00 | 3.00 | 6.96 |
| 提示中的平均单词数 | 693.09 | 539.60 | 882.85 | 686.82 | 760.41 |
| 提示中的最大单词数 | 2331 | 838 | 2574 | 1932 | 2574 |
| 响应中的平均单词数 | 72.07 | 24.41 | 78.50 | 205.88 | 99.31 |
| 响应中的最大单词数 | 289 | 107 | 430 | 444 | 444 |
| 每轮的平均单词数 | 54.49 | 156.77 | 65.89 | 31.78 | 60.63 |
| 每轮的最大单词数 | 330 | 474 | 449 | 262 | 474 |
| 总对话数 | 38 | 10 | 40 | 80 | 168 |
| 总轮数 | 380 | 70 | 480 | 240 | 1170 |
数据加载
Python代码示例
python from datasets import load_dataset
tasks = [ "refinement_single", "refinement_multi", "expansion_single", "expansion_multi", "follow-up_single", "follow-up_multi", "recollection_single_cls", "recollection_multi_cls", "recollection_single_global-inst", "recollection_multi_global-inst", ]
for task in tasks: data = load_dataset(wckwan/MT-Eval, task, split=test)
任务描述
- multi: 多轮对话。
- single: 多轮对话的单轮版本。
- cls: 文档分类任务。
- global-inst: 全局指令跟随任务。
对话实例格式
json { "conv" : [ { "user": "<str: User utterance>", "sys": "<str: System response>", "id": "<str: Turn ID>", "inst": "<str: Instruction in user utterance>", "do_inference": "<bool: Indicate if inference is required>", }, { ... }, ], "id": "<str: Dialogue ID>", }
搜集汇总
数据集介绍

构建方式
在大型语言模型日益成为多轮对话核心工具的背景下,MT-Eval数据集通过系统化分析人机对话模式,构建了涵盖回忆、扩展、精炼与跟进四类交互范式的评估基准。其构建过程融合了现有数据集的增强与GPT-4生成的新样本,有效避免了数据泄露问题。针对每一类别,研究团队精心设计了多轮对话查询,并同步创建了对应的单轮版本,共计1170组对话实例,以深入探究多轮能力的影响因素。
特点
MT-Eval数据集以其对多轮对话能力的专注评估而独具特色,覆盖了四种核心交互类型,并提供了单轮与多轮版本的直接对比。数据规模适中,包含168段对话与1170轮次,每轮对话平均长度约60词,最长可达474词,体现了对话内容的复杂性与多样性。该数据集不仅包含对话文本,还标注了每轮的指令信息与推理需求,为模型在文档分类与全局指令遵循等任务上的细致评估提供了结构化支持。
使用方法
该数据集可通过Hugging Face的datasets库便捷加载,支持按任务配置灵活调用。用户需导入load_dataset函数,并指定数据集名称与具体任务(如refinement_multi、recollection_single_cls等),即可获取测试分割数据。每个对话实例以结构化JSON格式呈现,包含对话序列、轮次ID、指令及推理标志等字段,便于研究者直接用于模型评估与对比分析。通过比较模型在单轮与多轮设定下的表现,可深入揭示其在持续对话中的能力衰减与错误传播等关键问题。
背景与挑战
背景概述
随着大语言模型在复杂多轮对话场景中的广泛应用,现有评估基准多聚焦于单轮交互,难以全面衡量模型在连续对话中的真实表现。为此,研究团队于2024年推出了MT-Eval基准,旨在系统评估大语言模型的多轮对话能力。该数据集由Wai-Chung Kwan等学者构建,通过分析人机对话模式,将交互归纳为回忆、扩展、精炼与跟进四类,并采用数据增强与GPT-4生成相结合的策略构建了1170组多轮查询及其单轮对照版本。这一工作填补了多轮对话评估体系的空白,为模型在动态语境下的理解、记忆与推理能力提供了量化依据,推动了对话系统研究向更深层次的交互场景拓展。
当前挑战
MT-Eval所针对的核心领域挑战在于如何准确评估大语言模型在复杂多轮对话中的综合能力,包括长期依赖建模、错误累积抑制以及动态语境适应等关键问题。在数据集构建过程中,研究者面临两大主要挑战:一是如何避免数据泄露,确保评估结果的公正性,为此采用了基于现有数据的增强与可控生成相结合的策略;二是如何设计合理的单轮对照实验,以分离多轮交互特有的性能影响因素,例如相关内容的距离效应与错误传播的敏感性。这些挑战的应对不仅提升了评估的严谨性,也为理解模型在多轮场景中的性能衰减机制提供了实证基础。
常用场景
经典使用场景
在自然语言处理领域,多轮对话能力是评估大语言模型交互智能的核心维度。MT-Eval数据集通过精心设计的四类交互模式——回忆、扩展、细化和跟进,为研究者提供了一个系统化的评估框架。该数据集最经典的使用场景在于全面测评模型在连续对话中的表现,尤其关注模型如何维持上下文一致性、处理信息累积以及应对错误传播。通过对比单轮与多轮设置下的性能差异,研究者能够深入剖析模型在多轮交互中的能力边界与退化机制,为模型优化提供实证依据。
实际应用
在实际应用层面,MT-Eval数据集为开发更可靠的对话系统提供了重要的评估工具。基于该数据集的测评结果,能够指导智能客服、个性化助手、教育辅导等需要多轮交互的应用场景进行模型选型与优化。通过识别模型在扩展、细化等具体对话行为中的薄弱环节,开发者可以针对性地增强系统的上下文管理能力与指令遵循精度,从而提升终端用户体验与任务完成效率。
衍生相关工作
MT-Eval数据集自发布以来,已衍生出多项关注大语言模型多轮能力的经典研究工作。这些工作通常围绕其揭示的性能退化现象展开,深入探究了注意力机制、长上下文建模、记忆增强等技术在多轮对话中的应用。部分研究进一步扩展了其评估维度,引入了更多样的对话类型或更细粒度的性能指标,共同推动了对话系统评估范式的演进与模型架构的改进。
以上内容由遇见数据集搜集并总结生成



