five

ChMap-Data|对话系统数据集|自然语言处理数据集

收藏
huggingface2025-03-12 更新2025-03-13 收录
对话系统
自然语言处理
下载链接:
https://huggingface.co/datasets/FrontierLab/ChMap-Data
下载链接
链接失效反馈
资源简介:
ChMapData是一个新颖的数据集,专注于训练和评估模型在基于对话历史进行主动话题引入的能力,支持论文中提出的记忆感知主动对话框架。数据集包含四个关键组成部分:1)Overall_dialogue_review,用于端到端的评估,包含历史对话、最终日对话以及提及历史对话的日期引用;2)Callback_Dialogue,用于训练记忆感知主动响应生成模型,包含过去一天的历史对话摘要、当前对话启动和展示主动话题引导的后续对话;3)Dialogue_Data,用于训练/评估话题摘要模型,包含带有相应话题和子话题注释的对话;4)Topic_Rank,用于训练/评估话题检索模型,包含候选历史话题的对话和最相关历史话题的地面真实注释。
创建时间:
2025-03-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChMap-Data数据集的构建分为四个主要部分:Overall_dialogue_review、Callback_Dialogue、Dialogue_Data和Topic_Rank。Overall_dialogue_review包含历史对话、最终日的对话以及指向历史对话的日期引用,用于端到端的评估。Callback_Dialogue旨在训练记忆感知型主动响应生成模型,包含过去一天的历史对话摘要、当前对话的启动以及展示主动话题引导的后续对话。Dialogue_Data为对话数据,带有相应的话题和子话题标注,用于训练和评估话题摘要模型。Topic_Rank则包含候选的历史话题以及最相关历史话题的地面真实标注,用于训练和评估话题检索模型。
特点
ChMap-Data数据集是首个关注记忆感知型主动对话的中文数据集,它不仅包含了用于训练的组件,还提供了用于评估的基准。该数据集支持对提出框架中不同模型组件的模块化评估,并为全面系统评估提供了端到端的评估协议。
使用方法
使用ChMap-Data数据集时,研究者可以根据不同的配置名称和分割方式,访问训练和测试数据。数据集以JSON格式存储,可以直接加载到相应的模型训练或评估流程中。用户需遵循Apache-2.0许可证的规定,正确引用数据集,并在研究中给出适当的引用。
背景与挑战
背景概述
ChMap-Data数据集,全称为Chinese Memory-aware Proactive Dataset,是一项专注于提升对话系统记忆意识主动对话能力的新型数据集。该数据集由Wu Bowen等研究人员在2025年提出,并在论文《Interpersonal Memory Matters: A New Task for Proactive Dialogue Utilizing Conversational History》中详细阐述。ChMap-Data的构建旨在训练和评估模型基于对话历史进行主动话题引入的能力,对于推动对话系统领域的研究具有重要意义。
当前挑战
ChMap-Data数据集在构建过程中面临的主要挑战包括:如何准确捕捉和利用对话历史中的关键信息以引导主动对话;如何高效地训练模型以记忆并利用历史话题进行对话生成;以及如何公正地评估模型的记忆意识和主动对话性能。此外,数据集的多样性和真实性的保证也是构建过程中的一大挑战。
常用场景
经典使用场景
在自然语言处理领域,ChMap-Data数据集的典型使用场景在于训练与评估对话系统的记忆感知主动对话能力。该数据集通过提供历史对话记录与当前对话内容,促使模型能够基于对话历史主动引入话题,从而提升对话的自然性与连贯性。
解决学术问题
ChMap-Data数据集解决了学术研究中如何在对话系统中有效利用历史信息进行话题引导的问题。它通过提供一个专门的训练场景,使得模型能够学习到如何依据对话历史进行主动话题引入,这对于提升对话系统的智能水平与用户体验具有重要的学术意义。
衍生相关工作
基于ChMap-Data数据集,研究者们已经开展了一系列相关工作,如记忆感知的主动对话模型训练、话题摘要与检索模型的评估等。这些工作不仅推动了对话系统领域的研究进展,也为相关技术的实际应用奠定了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

World Oil Production Data

该数据集包含了全球各国的石油生产数据,涵盖了从1973年至今的年度和月度数据。数据包括各国的原油产量、天然气液体产量以及总液体产量。此外,数据集还提供了各国的石油消费量和净进口量等信息。

www.eia.gov 收录