ChMap-Data

Hugging Face2025-03-12 更新2025-03-13 收录

下载链接：

https://huggingface.co/datasets/FrontierLab/ChMap-Data

下载链接

链接失效反馈

官方服务：

资源简介：

ChMapData是一个新颖的数据集，专注于训练和评估模型在基于对话历史进行主动话题引入的能力，支持论文中提出的记忆感知主动对话框架。数据集包含四个关键组成部分：1）Overall_dialogue_review，用于端到端的评估，包含历史对话、最终日对话以及提及历史对话的日期引用；2）Callback_Dialogue，用于训练记忆感知主动响应生成模型，包含过去一天的历史对话摘要、当前对话启动和展示主动话题引导的后续对话；3）Dialogue_Data，用于训练/评估话题摘要模型，包含带有相应话题和子话题注释的对话；4）Topic_Rank，用于训练/评估话题检索模型，包含候选历史话题的对话和最相关历史话题的地面真实注释。

ChMapData is a novel dataset focused on training and evaluating models' capability to proactively introduce topics based on conversation history, supporting the memory-aware active conversation framework proposed in the paper. The dataset consists of four core components: 1) Overall_dialogue_review: for end-to-end evaluation, which contains historical conversations, the final conversation of the day, and date references that mention historical conversations; 2) Callback_Dialogue: for training memory-aware active response generation models, which includes a summary of the historical conversations from the past day, the current conversation initiation, and follow-up conversations demonstrating proactive topic guidance; 3) Dialogue_Data: for training/evaluating topic summarization models, which contains conversations annotated with corresponding topics and sub-topics; 4) Topic_Rank: for training/evaluating topic retrieval models, which includes conversations associated with candidate historical topics and ground-truth annotations for the most relevant historical topics.

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

ChMap-Data数据集的构建分为四个主要部分：Overall_dialogue_review、Callback_Dialogue、Dialogue_Data和Topic_Rank。Overall_dialogue_review包含历史对话、最终日的对话以及指向历史对话的日期引用，用于端到端的评估。Callback_Dialogue旨在训练记忆感知型主动响应生成模型，包含过去一天的历史对话摘要、当前对话的启动以及展示主动话题引导的后续对话。Dialogue_Data为对话数据，带有相应的话题和子话题标注，用于训练和评估话题摘要模型。Topic_Rank则包含候选的历史话题以及最相关历史话题的地面真实标注，用于训练和评估话题检索模型。

特点

ChMap-Data数据集是首个关注记忆感知型主动对话的中文数据集，它不仅包含了用于训练的组件，还提供了用于评估的基准。该数据集支持对提出框架中不同模型组件的模块化评估，并为全面系统评估提供了端到端的评估协议。

使用方法

使用ChMap-Data数据集时，研究者可以根据不同的配置名称和分割方式，访问训练和测试数据。数据集以JSON格式存储，可以直接加载到相应的模型训练或评估流程中。用户需遵循Apache-2.0许可证的规定，正确引用数据集，并在研究中给出适当的引用。

背景与挑战

背景概述

ChMap-Data数据集，全称为Chinese Memory-aware Proactive Dataset，是一项专注于提升对话系统记忆意识主动对话能力的新型数据集。该数据集由Wu Bowen等研究人员在2025年提出，并在论文《Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History》中详细阐述。ChMap-Data的构建旨在训练和评估模型基于对话历史进行主动话题引入的能力，对于推动对话系统领域的研究具有重要意义。

当前挑战

ChMap-Data数据集在构建过程中面临的主要挑战包括：如何准确捕捉和利用对话历史中的关键信息以引导主动对话；如何高效地训练模型以记忆并利用历史话题进行对话生成；以及如何公正地评估模型的记忆意识和主动对话性能。此外，数据集的多样性和真实性的保证也是构建过程中的一大挑战。

常用场景

经典使用场景

在自然语言处理领域，ChMap-Data数据集的典型使用场景在于训练与评估对话系统的记忆感知主动对话能力。该数据集通过提供历史对话记录与当前对话内容，促使模型能够基于对话历史主动引入话题，从而提升对话的自然性与连贯性。

解决学术问题

ChMap-Data数据集解决了学术研究中如何在对话系统中有效利用历史信息进行话题引导的问题。它通过提供一个专门的训练场景，使得模型能够学习到如何依据对话历史进行主动话题引入，这对于提升对话系统的智能水平与用户体验具有重要的学术意义。

衍生相关工作

基于ChMap-Data数据集，研究者们已经开展了一系列相关工作，如记忆感知的主动对话模型训练、话题摘要与检索模型的评估等。这些工作不仅推动了对话系统领域的研究进展，也为相关技术的实际应用奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集