Child_chat_data

github2023-08-01 更新2025-02-07 收录

下载链接：

https://github.com/HIT-SCIR-SC/QiaoBan

下载链接

链接失效反馈

资源简介：

该数据集包含5000条中国儿童情感陪伴对话实例，作为QiaoBan模型的训练数据。数据集的构建过程分为两个关键阶段：（1）从真实场景中采样，志愿者根据从真实儿童对话中提取的主题列表，整理高质量的情感陪伴对话数据。专家学者积极参与，提供见解和建议以提升数据集的质量。（2）生成模型对话数据，针对数据集中的不同主题进行补充。

This dataset comprises 5000 instances of emotional companionship dialogues among Chinese children, serving as training data for the QiaoBan model. The construction of the dataset is divided into two critical phases: (1) Sampling from real-world scenarios, where volunteers compile high-quality emotional companionship dialogue data based on thematic lists extracted from real child conversations. Experts and scholars actively participate, providing insights and suggestions to enhance the quality of the dataset. (2) Generating model dialogue data, which supplements the different themes within the dataset.

提供机构：

哈尔滨工业大学

创建时间：

2023-08-01

原始信息汇总

中文儿童情感陪伴大模型“巧板”数据集概述

1. 数据集背景

目标群体：面向K12中小学生及家长群体
开发目的：解决当代儿童缺乏陪伴和情感支持的问题，守护儿童心理健康
模型名称含义：以中国传统益智玩具"七巧板"命名，象征对儿童成长的悉心呵护

2. 数据集特点

理论指导：基于儿童情绪辅导理论构建
数据质量：由儿童心理学专家和志愿者共同参与构建
交互体验：注重温暖贴心的陪伴体验

3. 数据构建方法

数据来源：
- 1k+段高质量中文儿童情感陪伴对话（人工构建）
- 5k段GPT-3.5生成的对话数据
构建流程：
- 从真实场景话题列表中采样
- 基于情绪辅导理论设计prompt
- 专家指导确保数据准确性

4. 模型训练

基础模型：7B规模开源通用大模型
训练数据：
- 通用域人机对话数据
- 单轮指令数据
- 儿童情感陪伴对话数据
训练配置：
- 硬件：4张A100-80GB GPU
- 时长：约50小时
- 使用DeepSpeed框架

5. 应用示例

案例1：旅游准备建议
案例2：社交困难疏导
案例3：家庭问题安慰

6. 项目信息

开发团队：哈尔滨工业大学社会计算与信息检索研究中心情感计算组
指导教师：赵妍妍副教授、秦兵教授
开源参考：BELLE、Baize等项目

7. 使用声明

用途限制：仅供学术研究
免责声明：不保证生成内容的准确性，不承担法律责任

8. 引用格式

bibtex @misc{qiaoban2023, author = {Weixiang Zhao, Shilong Wang, Yanpeng Tong, Xin Lu, Zhuojun Li, Yanyan Zhao*, Chenxue Wang, Tian Zheng & Bing Qin}, title = {QiaoBan: A Parental Emotion Coaching Dialogue Assistant for Better Parent-Child Interaction}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {https://github.com/HIT-SCIR-SC/QiaoBan}
}

搜集汇总

数据集介绍

构建方式

巧板大模型的构建基于开源通用大模型，通过指令微调的方式，结合通用域人机对话数据、单轮指令数据以及儿童情感陪伴对话数据进行训练。儿童情感陪伴对话数据的构建过程受到儿童情绪辅导理论的启发，确保数据的科学性和有效性。数据收集过程中，经过培训的志愿者和儿童心理学专家共同参与，确保了数据的高质量和真实性。此外，通过话题采样和结合理论指导的prompt，从GPT-3.5-turbo中获取了额外的对话数据，进一步丰富了数据集。

使用方法

巧板大模型的使用方法主要包括加载预训练模型、配置训练参数以及进行指令微调。用户可以通过提供的训练代码和配置文件，在四张A100-80GB的GPU卡上进行模型训练。训练完成后，用户可以使用模型进行儿童情感陪伴对话的生成。此外，模型还提供了示例代码，用户可以参考这些代码进行对话生成和交互。模型的使用不仅限于学术研究，还可以应用于实际场景中，帮助儿童解决情感问题，提供心理支持。

背景与挑战

背景概述

Child_chat_data数据集由哈尔滨工业大学社会计算与信息检索研究中心情感计算组于2023年开发，旨在构建一个面向儿童情感陪伴的大语言模型“巧板”。该数据集的核心研究问题是如何利用大语言模型（LLMs）在儿童心理健康和情感发展领域提供有效的对话支持。随着儿童心理健康问题的日益突出，传统的家庭教育方式已难以满足现代儿童的情感需求。巧板大模型基于情绪辅导理论，结合高质量的儿童对话数据，致力于为K12中小学生及其家长提供情感陪伴与心理支持。该数据集的开发不仅填补了儿童情感陪伴领域的空白，也为大语言模型在垂直领域的迁移应用提供了重要参考。

当前挑战

Child_chat_data数据集在构建与应用过程中面临多重挑战。首先，儿童情感陪伴领域的对话生成需要高度精准的情感理解和回应能力，而现有的大语言模型往往难以直接适应这一需求，容易产生冗长或模板化的回复。其次，数据集的构建依赖于高质量的儿童对话数据，这些数据需在儿童情绪辅导理论的指导下，由具备心理学背景的专家和志愿者共同完成，确保数据的真实性与有效性。此外，如何在大规模数据训练中平衡模型的泛化能力与情感陪伴的个性化需求，也是该数据集面临的重要技术挑战。最后，儿童情感陪伴场景的多样性与复杂性要求模型具备更高的灵活性与适应性，这对模型的训练与优化提出了更高的要求。

常用场景

经典使用场景

在儿童心理健康领域，巧板大模型通过模拟真实对话场景，为儿童提供情感支持和心理辅导。该模型能够理解儿童的情感需求，并通过对话帮助他们表达和处理情绪，从而在心理成长的关键阶段提供必要的支持。

解决学术问题

巧板大模型解决了儿童心理健康研究中对话数据的稀缺性问题。通过构建高质量的儿童情感陪伴对话数据集，该模型为研究人员提供了一个可靠的资源，用于探索和验证儿童情感辅导理论的有效性，进而推动儿童心理学领域的研究进展。

实际应用

在实际应用中，巧板大模型被广泛应用于学校和家庭环境，作为儿童情感陪伴的辅助工具。它不仅能够帮助儿童处理日常情感问题，还能通过持续的互动，增强儿童的情感表达能力和社交技能，为他们的心理健康成长提供持续的支持。

数据集最近研究