RIFTS

Name: RIFTS
Creator: 斯坦福大学, 微软研究院
Published: 2025-03-18 15:24:05
License: 暂无描述

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

https://github.com/microsoft/rifts

下载链接

链接失效反馈

官方服务：

资源简介：

RIFTS数据集是由微软研究院创建的，包含约1800个任务，这些任务是从野外的LLM交互日志中直接 sourcing 而来，旨在研究人类与LLM之间的交互接地问题。数据集涵盖了需要选择性使用澄清和后续请求来处理交互接地的场景。

The RIFTS dataset was created by Microsoft Research, containing approximately 1,800 tasks sourced directly from in-the-wild LLM interaction logs. It aims to investigate the problem of interaction grounding between humans and LLMs. The dataset covers scenarios where selective use of clarification and follow-up requests is required to handle interaction grounding issues.

提供机构：

斯坦福大学, 微软研究院

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

RIFTS数据集的构建基于对真实世界人类与大型语言模型（LLM）交互日志的分析，特别是从WildChat、Bing Chat和MultiWOZ三个数据集中提取的对话数据。研究者首先开发了一套对话行为的分类体系，用于标注和预测对话中的“接地行为”（grounding acts），即对话参与者为建立共同理解而采取的行为。通过使用GPT-4模型对对话进行标注，并结合人工验证，研究者构建了一个包含约1.8K任务的基准数据集RIFTS。这些任务涵盖了需要LLM主动澄清或跟进的场景，旨在评估LLM在对话中的接地能力。

使用方法

RIFTS数据集的使用方法主要包括评估LLM在对话中的接地能力。研究者可以通过该数据集测试LLM在不同任务类型下的表现，特别是LLM是否能够在需要时主动澄清或跟进。具体而言，对于需要跟进的协作任务，研究者期望LLM能够生成适当的跟进问题；对于需要澄清的模糊任务，研究者期望LLM能够生成澄清问题。通过这种方式，RIFTS为评估和改进LLM的对话接地能力提供了一个系统化的基准。

背景与挑战

背景概述

RIFTS数据集由斯坦福大学和微软研究院的研究团队于2025年创建，旨在系统研究人类与大型语言模型（LLM）在对话中的‘接地’（grounding）问题。接地是指对话参与者通过确认、澄清和跟进等行为建立相互理解的过程。该数据集基于WildChat、MultiWOZ和Bing Chat等公开的人类与LLM交互日志，构建了一个包含约1800个任务的基准测试集，用于评估LLM在对话中主动发起接地的能力。RIFTS的提出揭示了当前前沿模型在接地行为上的显著不足，尤其是在澄清和跟进请求方面的表现远低于人类，为LLM的训练和提示设计提供了新的研究方向。

当前挑战

RIFTS数据集面临的挑战主要体现在两个方面。首先，LLM在对话中主动发起接地的能力较弱，尤其是在澄清和跟进请求方面，LLM的表现仅为人类的三分之一和十六分之一。这种不对称性导致对话中的早期接地失败往往引发后续的交互崩溃。其次，数据集的构建过程中，研究团队需要从大量交互日志中筛选出LLM未能有效接地的场景，并通过模型预测未来的接地行为。这一过程不仅需要高精度的标注模型，还需确保数据集的多样性和代表性，以避免对特定模型或交互场景的偏见。这些挑战为LLM在对话系统中的改进提供了重要的研究方向和基准测试平台。

常用场景

经典使用场景

RIFTS数据集主要用于研究人类与大型语言模型（LLM）在对话中的协作问题，特别是在对话中建立共同理解的过程。通过分析人类与LLM的对话日志，RIFTS提供了一个基准，用于评估LLM在对话中是否能够主动发起澄清或跟进请求，以确保对话的顺利进行。该数据集特别关注LLM在对话中未能有效启动“grounding”行为的情况，帮助研究者识别和改进LLM在对话中的表现。

解决学术问题

RIFTS数据集解决了LLM在对话中缺乏主动澄清和跟进的问题。研究表明，LLM在对话中主动澄清的可能性比人类低三倍，而主动跟进的可能性则低十六倍。这种不对称性导致对话中的误解和沟通失败，尤其是在高风险场景中可能产生严重后果。通过RIFTS，研究者可以系统地测量LLM在对话中的“grounding”行为，并提出改进模型训练和提示设计的方案，以减少对话中的误解和失败。

实际应用

RIFTS数据集的实际应用场景包括改进LLM在客户服务、医疗咨询、教育辅导等领域的对话能力。在这些场景中，LLM需要与用户进行复杂的协作对话，确保双方对任务和目标有共同的理解。通过使用RIFTS，开发者可以训练LLM在对话中主动发起澄清和跟进请求，从而提高对话的质量和用户体验。此外，RIFTS还可以用于评估和改进现有LLM在对话中的表现，帮助开发更智能、更人性化的对话系统。

数据集最近研究