CareCall for Seniors|老年关怀数据集|人工智能对话数据集

github2022-05-03 更新2024-05-31 收录

老年关怀

人工智能对话

下载链接：

https://github.com/naver-ai/carecall-corpus

下载链接

链接失效反馈

资源简介：

这是一个针对老年人的角色指定开放领域对话数据集，使用大规模语言模型生成，并得到人类支持。数据集包含系统与用户的对话，旨在关怀老年公民领域。

This is an open-domain dialogue dataset specifically designed for the elderly, generated using large-scale language models and supported by human input. The dataset comprises dialogues between the system and users, aiming to address the field of elderly care.

创建时间：

2022-05-02

原始信息汇总

数据集概述

数据集名称

CareCall for Seniors

数据集描述

该数据集包含韩国的“角色指定”开放领域对话，专注于照顾老年人领域，由大规模语言模型生成，并得到人类支持。

数据集组成部分

carecall_filtered_10k.json
- 包含经过过滤的对话数据，每条对话包含唯一标识符、系统或用户的角色、文本内容以及是否超出角色规范的标记。
carecall_feedback_100.json
- 包含通过人机交互阶段的人工对话数据，不包含超出角色规范的语句，因为所有语句都经过人工修正。
carecall_translated_samples.json
- 提供从carecall_filtered_10k和carecall_feedback_100.json中人工翻译的200个对话样本，内容为英文。

数据统计

carecall_filtered_10k
- 对话类型：过滤
- 对话数量：10,500
- 对话轮数：57,091
- 平均每对话轮数：5.4
- 正面例子数量：23,212
- 负面例子数量：10,500
carecall_feedback_100
- 对话类型：反馈
- 对话数量：100
- 对话轮数：1,838
- 平均每对话轮数：18.4
- 正面例子数量：969
- 负面例子数量：0

数据集使用许可

该数据集根据CC-BY-NC-SA 4.0许可发布。

AI搜集汇总

数据集介绍

构建方式

CareCall for Seniors数据集通过大规模语言模型生成，并结合人工支持进行筛选和修正，构建了一个专门针对老年人护理领域的开放域对话系统。数据集的构建过程包括使用语言模型生成对话，随后通过人工过滤和修正，确保对话内容符合角色设定。具体而言，数据集包含两个主要部分：一是通过一次性对话生成和人工筛选的对话数据，二是通过人机交互阶段生成的对话数据。

特点

该数据集的主要特点在于其角色指定的对话生成方式，确保系统与用户（老年人）之间的对话内容符合特定的护理角色设定。数据集中的对话不仅涵盖了日常关怀话题，还通过‘out-of-bounds’字段标记了系统对话是否违反角色规范，从而提供了丰富的标注信息。此外，数据集还提供了韩语和英语两种语言的样本，便于跨语言研究。

使用方法

使用CareCall for Seniors数据集时，用户可以通过提供的JSON文件直接访问对话数据，每个对话包含唯一的标识符（guid）、角色信息（system或user）、对话文本以及是否违反角色规范的标记。数据集适用于开发和评估面向老年人的对话系统，尤其是需要角色指定和语境敏感的应用场景。用户可以根据需要选择不同类型的对话数据进行训练或测试，并结合人工反馈数据进行模型优化。

背景与挑战

背景概述

CareCall for Seniors数据集是由韩国的研究团队开发，专注于为老年人提供角色指定的开放域对话系统。该数据集利用大规模语言模型生成对话，并结合人工支持进行优化，旨在提升老年人护理领域的对话质量。主要研究人员包括Sanghwan Bae、Donghyun Kwak等，研究成果在2022年NAACL会议上发表。该数据集的核心研究问题是如何通过角色指定的对话系统，有效支持老年人的日常护理需求，对老年人护理技术的发展具有重要影响。

当前挑战

CareCall for Seniors数据集在构建过程中面临多项挑战。首先，如何确保生成的对话内容符合老年人的实际需求和语言习惯，避免出现不适当或无效的对话内容。其次，数据集的生成依赖于大规模语言模型，如何有效结合人工筛选和反馈，以提高对话的准确性和适用性。此外，数据集的多样性和覆盖范围也是一个挑战，确保对话内容能够涵盖老年人日常生活中的多种场景和需求。

常用场景

经典使用场景

CareCall for Seniors 数据集的经典使用场景主要集中在开发和优化面向老年人的开放域对话系统。该数据集通过大规模语言模型生成并经过人工筛选，提供了丰富的对话样本，特别适用于研究如何在对话系统中实现角色指定的交互。这些对话样本不仅涵盖了日常生活的常见话题，还涉及健康、饮食、运动等老年人关心的主题，为构建智能护理对话系统提供了宝贵的资源。

实际应用

在实际应用中，CareCall for Seniors 数据集可用于开发智能护理助手，帮助老年人解决日常生活中的问题。例如，系统可以通过对话提醒老年人按时服药、进行适当的运动或关注饮食健康。此外，该数据集还可用于培训护理人员，提升他们与老年人沟通的技巧和效率。通过这些应用，CareCall 数据集在提升老年人生活质量方面具有显著的实际意义。

衍生相关工作

CareCall for Seniors 数据集的发布激发了多项相关研究工作，特别是在开放域对话系统和角色指定交互领域。例如，研究者们利用该数据集开发了更智能的对话模型，能够更好地理解和回应老年人的需求。此外，该数据集还被用于评估和改进对话系统的情感识别能力，以及在多轮对话中保持上下文连贯性的技术。这些衍生工作进一步推动了对话系统在护理领域的应用和发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据，主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频，标注了人体关键点位置，适用于研究人体姿态识别和动作分析。

github.com 收录