CareCall for Seniors
收藏github2022-05-03 更新2024-05-31 收录
下载链接:
https://github.com/naver-ai/carecall-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个针对老年人的角色指定开放领域对话数据集,使用大规模语言模型生成,并得到人类支持。数据集包含系统与用户的对话,旨在关怀老年公民领域。
This is an open-domain dialogue dataset specifically designed for the elderly, generated using large-scale language models and supported by human input. The dataset comprises dialogues between the system and users, aiming to address the field of elderly care.
创建时间:
2022-05-02
原始信息汇总
数据集概述
数据集名称
- CareCall for Seniors
数据集描述
- 该数据集包含韩国的“角色指定”开放领域对话,专注于照顾老年人领域,由大规模语言模型生成,并得到人类支持。
数据集组成部分
-
carecall_filtered_10k.json
- 包含经过过滤的对话数据,每条对话包含唯一标识符、系统或用户的角色、文本内容以及是否超出角色规范的标记。
-
carecall_feedback_100.json
- 包含通过人机交互阶段的人工对话数据,不包含超出角色规范的语句,因为所有语句都经过人工修正。
-
carecall_translated_samples.json
- 提供从
carecall_filtered_10k和carecall_feedback_100.json中人工翻译的200个对话样本,内容为英文。
- 提供从
数据统计
-
carecall_filtered_10k
- 对话类型:过滤
- 对话数量:10,500
- 对话轮数:57,091
- 平均每对话轮数:5.4
- 正面例子数量:23,212
- 负面例子数量:10,500
-
carecall_feedback_100
- 对话类型:反馈
- 对话数量:100
- 对话轮数:1,838
- 平均每对话轮数:18.4
- 正面例子数量:969
- 负面例子数量:0
数据集使用许可
- 该数据集根据CC-BY-NC-SA 4.0许可发布。
搜集汇总
数据集介绍

构建方式
CareCall for Seniors数据集通过大规模语言模型生成,并结合人工支持进行筛选和修正,构建了一个专门针对老年人护理领域的开放域对话系统。数据集的构建过程包括使用语言模型生成对话,随后通过人工过滤和修正,确保对话内容符合角色设定。具体而言,数据集包含两个主要部分:一是通过一次性对话生成和人工筛选的对话数据,二是通过人机交互阶段生成的对话数据。
特点
该数据集的主要特点在于其角色指定的对话生成方式,确保系统与用户(老年人)之间的对话内容符合特定的护理角色设定。数据集中的对话不仅涵盖了日常关怀话题,还通过‘out-of-bounds’字段标记了系统对话是否违反角色规范,从而提供了丰富的标注信息。此外,数据集还提供了韩语和英语两种语言的样本,便于跨语言研究。
使用方法
使用CareCall for Seniors数据集时,用户可以通过提供的JSON文件直接访问对话数据,每个对话包含唯一的标识符(guid)、角色信息(system或user)、对话文本以及是否违反角色规范的标记。数据集适用于开发和评估面向老年人的对话系统,尤其是需要角色指定和语境敏感的应用场景。用户可以根据需要选择不同类型的对话数据进行训练或测试,并结合人工反馈数据进行模型优化。
背景与挑战
背景概述
CareCall for Seniors数据集是由韩国的研究团队开发,专注于为老年人提供角色指定的开放域对话系统。该数据集利用大规模语言模型生成对话,并结合人工支持进行优化,旨在提升老年人护理领域的对话质量。主要研究人员包括Sanghwan Bae、Donghyun Kwak等,研究成果在2022年NAACL会议上发表。该数据集的核心研究问题是如何通过角色指定的对话系统,有效支持老年人的日常护理需求,对老年人护理技术的发展具有重要影响。
当前挑战
CareCall for Seniors数据集在构建过程中面临多项挑战。首先,如何确保生成的对话内容符合老年人的实际需求和语言习惯,避免出现不适当或无效的对话内容。其次,数据集的生成依赖于大规模语言模型,如何有效结合人工筛选和反馈,以提高对话的准确性和适用性。此外,数据集的多样性和覆盖范围也是一个挑战,确保对话内容能够涵盖老年人日常生活中的多种场景和需求。
常用场景
经典使用场景
CareCall for Seniors 数据集的经典使用场景主要集中在开发和优化面向老年人的开放域对话系统。该数据集通过大规模语言模型生成并经过人工筛选,提供了丰富的对话样本,特别适用于研究如何在对话系统中实现角色指定的交互。这些对话样本不仅涵盖了日常生活的常见话题,还涉及健康、饮食、运动等老年人关心的主题,为构建智能护理对话系统提供了宝贵的资源。
实际应用
在实际应用中,CareCall for Seniors 数据集可用于开发智能护理助手,帮助老年人解决日常生活中的问题。例如,系统可以通过对话提醒老年人按时服药、进行适当的运动或关注饮食健康。此外,该数据集还可用于培训护理人员,提升他们与老年人沟通的技巧和效率。通过这些应用,CareCall 数据集在提升老年人生活质量方面具有显著的实际意义。
衍生相关工作
CareCall for Seniors 数据集的发布激发了多项相关研究工作,特别是在开放域对话系统和角色指定交互领域。例如,研究者们利用该数据集开发了更智能的对话模型,能够更好地理解和回应老年人的需求。此外,该数据集还被用于评估和改进对话系统的情感识别能力,以及在多轮对话中保持上下文连贯性的技术。这些衍生工作进一步推动了对话系统在护理领域的应用和发展。
以上内容由遇见数据集搜集并总结生成



