MT-Bench-101|语言模型评估数据集|多轮对话数据集

arXiv2024-02-23 更新2024-08-06 收录

语言模型评估

多轮对话

下载链接：

http://arxiv.org/abs/2402.14762v1

下载链接

链接失效反馈

资源简介：

MT-Bench-101是一个专门设计用来评估大型语言模型在多轮对话中细粒度能力的数据集。通过对真实多轮对话数据的详细分析，构建了一个包含4208个回合、1388个多轮对话和13个不同任务的三级层次能力分类体系。

创建时间：

2024-02-23

AI搜集汇总

数据集介绍

构建方式

MT-Bench-101数据集的构建基于对真实多轮对话数据的详细分析，结合了教育心理学中的教学分类法，形成了一个三层的能力分类体系。该分类体系包含三个主要能力层级，分别是感知能力、适应能力和互动能力，每个层级下又细分为多个子能力，最终分解为13个具体任务。数据集通过GPT-4生成，涵盖了4208个对话轮次，分布在1388个多轮对话中，确保了数据的多任务多样性和细粒度评估需求。

特点

MT-Bench-101数据集的显著特点在于其细粒度的能力分类体系，涵盖了从基础感知能力到高级互动能力的多个层次。数据集不仅包含了丰富的多轮对话场景，还通过三层分类体系确保了对大语言模型在多轮对话中的能力进行全面评估。此外，数据集的多样性和任务复杂性使其能够有效评估模型在不同对话情境下的表现，尤其是在处理上下文记忆、话题切换和主动互动等复杂任务时的能力。

使用方法

MT-Bench-101数据集主要用于评估大语言模型在多轮对话中的表现，尤其是其在感知、适应和互动能力方面的表现。使用该数据集时，研究人员可以通过对比不同模型在各个任务上的得分，分析模型在多轮对话中的优劣势。此外，数据集还提供了详细的评分指南，研究人员可以利用GPT-4作为评分工具，对模型的对话生成能力进行自动化评估。通过分析模型在不同任务和能力维度上的表现，可以进一步优化和改进大语言模型的多轮对话能力。

背景与挑战

背景概述

随着大型语言模型（LLMs）在对话系统中的广泛应用，其多轮对话能力得到了显著提升。然而，现有基准测试主要集中在单轮对话或对多轮对话的粗略评估，未能充分捕捉现实对话中的复杂性和细微差别。为了填补这一空白，阿里巴巴集团、香港中文大学和上海人工智能实验室的研究团队于2024年2月推出了MT-Bench-101数据集。该数据集旨在通过详细的分析，评估LLMs在多轮对话中的细粒度能力。MT-Bench-101构建了一个包含1388个多轮对话和4208个对话轮次的分层能力分类体系，涵盖13个不同任务。该数据集的推出不仅为LLMs的多轮对话能力提供了全面的评估框架，还揭示了现有模型在适应性和交互性方面的不足，推动了对话系统领域的进一步研究。

当前挑战

MT-Bench-101数据集面临的挑战主要集中在两个方面。首先，构建过程中需要解决多轮对话的复杂性和细粒度评估的难题。现有基准测试多集中于单轮对话或粗略的多轮对话评估，而MT-Bench-101通过引入分层能力分类体系，涵盖了从基础感知到高级交互的多个层次，确保了对LLMs多轮对话能力的全面评估。其次，数据集的构建过程中需要处理大量真实对话数据的分析和分类，确保任务设计的准确性和多样性。此外，评估LLMs在多轮对话中的表现时，如何有效区分不同模型的适应性和交互性能力，也是一个重要的挑战。

常用场景

经典使用场景

MT-Bench-101 数据集的经典使用场景在于评估大型语言模型（LLMs）在多轮对话中的细粒度能力。通过构建一个包含1388个多轮对话和4208个对话轮次的基准，该数据集能够系统性地评估模型在上下文记忆、理解、指代消解、话题转移等多个维度的表现。例如，模型需要根据用户的历史对话信息生成连贯的回复，或在用户突然切换话题时保持对话的逻辑性和相关性。

解决学术问题

MT-Bench-101 数据集解决了当前多轮对话评估中的一个关键学术问题，即现有基准主要关注单轮对话或粗粒度的多轮对话评估，忽略了真实对话中的复杂性和细微差别。该数据集通过引入三层能力分类法，涵盖了13个不同的任务，能够更全面地评估LLMs在多轮对话中的表现，填补了现有基准的空白，并为未来的研究提供了新的方向。

衍生相关工作

MT-Bench-101 数据集的发布催生了一系列相关的经典工作，特别是在多轮对话评估和LLMs能力建模领域。例如，基于该数据集的研究揭示了现有LLMs在适应性和交互性方面的不足，并提出了改进策略。此外，该数据集还启发了其他研究者开发新的多轮对话评估基准，如扩展任务类型和引入更复杂的对话场景。这些衍生工作进一步推动了多轮对话系统的发展和优化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录