SocialDial

Name: SocialDial
Creator: 数据科学与人工智能系，莫纳什大学，澳大利亚
Published: 2023-04-24 19:55:22
License: 暂无描述

arXiv2023-04-24 更新2024-06-21 收录

下载链接：

https://github.com/zhanhl316/SocialDial

下载链接

链接失效反馈

官方服务：

资源简介：

SocialDial是首个基于中国社会文化背景的社交感知对话语料库，包含1563个多轮人类对话和4870个由ChatGPT生成的合成对话。该数据集覆盖了问候、请求、道歉、说服和批评等五种社会规范类别，共计14个子类别，并详细标注了社会关系、上下文、社会距离和社会规范等社会因素。数据集的创建过程结合了人群工作和自动生成技术，确保了数据的质量和多样性。SocialDial的应用领域主要集中在研究对话系统中的社会规范模型，旨在解决跨文化交流中的误解和冲突问题。

SocialDial is the first socially aware dialogue corpus grounded in Chinese socio-cultural contexts. It encompasses 1,563 multi-turn human conversations and 4,870 synthetic dialogues generated by ChatGPT. This corpus covers five categories of social norms, namely greeting, request, apology, persuasion and criticism, which are subdivided into a total of 14 subcategories, and thoroughly annotates key social factors including social relationship, conversational context, social distance and social norms. The development of SocialDial integrates crowdsourcing and automatic generation technologies to ensure the quality and diversity of the dataset. The primary application domains of SocialDial focus on researching social norm models in dialogue systems, aiming to resolve misunderstandings and conflicts in cross-cultural communication.

提供机构：

数据科学与人工智能系，莫纳什大学，澳大利亚

创建时间：

2023-04-24

搜集汇总

数据集介绍

构建方式

在社交对话系统研究领域，构建具有社会文化意识的对话数据集面临资源稀缺的挑战。SocialDial数据集的构建采用了双轨策略，融合了人工标注与自动化生成的优势。首先，基于礼貌理论构建了涵盖社会规范、社会距离、社会关系及社会语境等多维因素的本体论框架。随后，招募熟悉中国文化的标注者，依据预设的社会因素初始集撰写多轮对话，并完成细粒度标注，最终收集了1,563条高质量人工对话。为扩大数据规模，研究团队设计了基于本体的合成数据生成框架，利用ChatGPT通过规范化提示模板，自动生成4,870条合成对话，并通过人工评估机制确保数据质量。

使用方法

该数据集主要服务于社交感知对话系统的开发与评估研究。在使用时，研究者可将其应用于多层次的分类任务：在对话层面，可训练模型识别社会距离、社会关系、形式、地点和话题等社会因素；在语句层面，则聚焦于五大社会规范类别的违反检测任务。数据集支持对比分析人工数据与合成数据的模型训练效果，探究数据融合对性能的提升作用。此外，其丰富的标注信息使得研究者能够深入分析不同社会因素对社会规范遵守的影响机制，为构建更具文化适应性和社会意识的对话智能体提供实证基础。

背景与挑战

背景概述

随着对话系统在各类场景中的广泛应用，其在自然语言处理领域的重要性日益凸显。然而，现有系统在理解社会规范方面仍存在显著不足，难以达到人类水平的社交意识。为填补这一研究空白，莫纳什大学的研究团队于2023年推出了SocialDial数据集，这是首个基于中国社会文化的社交感知对话基准。该数据集旨在探究社会因素对对话行为的影响，涵盖问候、请求、道歉、说服与批评等五类社会规范，并细分为14个子类别。通过结合1563段人工标注的多轮对话与4870段由ChatGPT生成的合成对话，SocialDial为研究社交规范在对话系统中的建模提供了重要资源，推动了跨文化对话智能的发展。

当前挑战

SocialDial数据集致力于解决社交感知对话系统中的核心挑战，即如何使机器理解并遵循复杂的社会规范。具体而言，该领域问题的挑战在于社会规范的多样性与语境依赖性，例如同一行为在不同社交关系、距离或场合下可能具有截然不同的合宜性。在数据构建过程中，研究团队面临两大挑战：一是高质量社交对话的采集成本高昂，需通过精心设计的众包流程确保标注的准确性与一致性；二是合成数据的生成需克服分布偏差问题，尽管ChatGPT能大规模生成对话，但其与真实对话在语义分布上存在差异，可能影响模型泛化能力。此外，数据标注涉及多维度社会因素，如社交距离、关系与语境，其主观性与复杂性进一步增加了构建难度。

常用场景

经典使用场景

在对话系统研究领域，SocialDial数据集为构建具有社会意识的人工智能对话模型提供了关键资源。该数据集通过精细标注的社会规范类别、社交距离、社会关系及语境因素，支持研究者训练模型识别和理解中文文化背景下的社交规范。其经典应用场景包括开发能够检测对话中社会规范违反行为的系统，例如在同事间请求、家庭成员批评等情境中，模型可依据标注数据判断言语是否得体，从而提升对话代理的社会智能水平。

解决学术问题

SocialDial数据集主要解决了对话系统中社会意识建模的研究空白。传统对话系统往往缺乏对文化特定社交规范的敏感性，导致交互生硬或冒犯。该数据集通过提供涵盖问候、请求、道歉、说服和批评五类社会规范的标注对话，使研究者能够系统探究社会因素（如权力距离、亲疏关系）如何影响规范遵守。其意义在于推动了跨文化对话理解的发展，为构建更具人文关怀和情境适应性的对话系统奠定了数据基础，促进了自然语言处理与社会科学的交叉融合。

实际应用

在实际应用层面，SocialDial数据集可服务于智能客服、虚拟助手及跨文化交流培训工具的开发。例如，在商务场景中，基于该数据集训练的模型能够识别客户与服务人员对话中的礼仪失当，及时提示修正；在教育领域，可辅助语言学习者理解中文社交语境下的得体表达。此外，该数据集支持构建适应性对话系统，使其在不同社会关系（如上下级、亲友）和场合（如正式会议、家庭闲聊）中自动调整语言风格，提升用户体验与文化包容性。

数据集最近研究