lost_in_conversation

Name: lost_in_conversation
Creator: Microsoft
Published: 2025-05-10 02:39:20
License: 暂无描述

Hugging Face2025-05-10 更新2025-05-11 收录

下载链接：

https://huggingface.co/datasets/microsoft/lost_in_conversation

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是为了模拟单轮和多轮对话而发布的分片指令集，与论文《LLMs Get Lost in Multi-Turn Conversation》一同发布。数据集中的每个样本都包含一个任务ID、任务类型、多个分片（每个分片包含ID和文本）以及特定任务的键值对。数据集是通过自动化生成和作者的人工审阅创建的，用于评估LLM在生成任务上的性能。数据集在CDLA Permissive 2.0许可下发布。

This dataset is a fragmented instruction set released for simulating single-turn and multi-turn conversations, published alongside the paper *LLMs Get Lost in Multi-Turn Conversation*. Each sample in the dataset contains a task ID, task type, multiple fragments (each fragment includes an ID and text), as well as task-specific key-value pairs. The dataset was created through automated generation and manual review by the authors, and is used to evaluate the performance of large language models (LLMs) on generative tasks. The dataset is released under the CDLA Permissive 2.0 license.

提供机构：

Microsoft

创建时间：

2025-05-10

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，lost_in_conversation数据集通过自动化生成与人工筛选相结合的方式精心构建。该过程基于七项现有评估大语言模型生成性能的数据集，将原始的单轮指令转化为分片结构，具体方法详见论文附录中的分片流程章节。数据创建周期集中于2025年1月至4月，每个样本均包含任务标识、领域分类及分层文本片段，并保留任务特定的评估参数。

使用方法

研究者可通过关联的GitHub代码库加载数据集，实现单轮与多轮对话的自动化模拟。使用时应依据任务类型解析样本中的分片序列，结合特定键值进行效果评估。数据分片设计支持渐进式对话重建，建议参照论文实验方案配置参数，并遵循CDLA Permissive 2.0许可协议开展学术研究。

背景与挑战

背景概述

随着大型语言模型在多轮对话任务中的广泛应用，其对话连贯性与信息保持能力成为自然语言处理领域的关键研究课题。微软研究院于2025年发布的lost_in_conversation数据集，由Philippe Laban等学者基于七类生成任务基准数据集构建，通过自动化生成与人工校验相结合的方式，系统化地模拟了单轮与多轮对话场景。该数据集覆盖代码生成、数学推理、文本摘要等七种核心任务类型，为探究语言模型在连续交互中的性能退化现象提供了标准化评估框架。

当前挑战

该数据集致力于解决多轮对话场景下语言模型出现的语义漂移与信息遗忘问题，其构建过程面临双重挑战：在领域问题层面，需要精准量化模型在长程对话中逐步偏离原始任务目标的衰减规律；在技术实现层面，既要保持原始单轮指令的语义完整性，又需通过分片重组机制构建符合真实对话逻辑的多轮序列，同时确保不同任务类型间评估指标的可比性与一致性。

常用场景

经典使用场景

在自然语言处理领域，lost_in_conversation数据集专为模拟单轮与多轮对话场景而设计，涵盖代码生成、数据库操作、数学推理等七类任务。研究者通过该数据集可系统评估大型语言模型在连续交互中的信息保持与逻辑连贯能力，为对话系统的鲁棒性研究提供标准化测试环境。

解决学术问题

该数据集有效解决了多轮对话中模型易出现信息遗忘与逻辑断裂的学术难题。通过将完整指令分割为语义片段，它揭示了语言模型在长程依赖建模中的局限性，为改进注意力机制与记忆架构提供了实证基础，推动了对话系统可解释性研究的发展。

实际应用

在实际应用层面，该数据集为智能客服、交互式教育系统等需要持续对话的场景提供性能基准。企业可依据其评估模型在真实场景中的稳定性，医疗咨询与法律助手等专业领域也能通过此类测试规避关键信息传递失误的风险。

数据集最近研究