AliCHI

arXiv2022-12-11 更新2024-06-21 收录

下载链接：

http://www.bruceluo.net/AliCHI.html

下载链接

链接失效反馈

官方服务：

资源简介：

AliCHI是由阿里巴巴集团达摩院创建的大规模多模态数据集，专注于人类对人类面对面交流的精细标注。该数据集包含635个对话会话，总时长52小时，来源于200名参与者。创建过程中，通过设计通用话题和确保参与者具备基本知识，以减少个体偏差。数据集主要用于支持人机交互系统中的背通道预测和轮流预测任务，旨在提升对话系统的自然性和人类化行为。

AliCHI is a large-scale multimodal dataset developed by Alibaba Group's DAMO Academy, focusing on finely annotated human-to-human face-to-face conversations. The dataset includes 635 dialogue sessions with a total duration of 52 hours, sourced from 200 participants. During its construction, general conversation topics were designed and participants were required to possess relevant basic knowledge to mitigate individual biases. This dataset is primarily used to support backchannel prediction and turn-taking prediction tasks in human-computer interaction systems, aiming to improve the naturalness and human-like behaviors of dialogue systems.

提供机构：

达摩院

创建时间：

2022-12-11

搜集汇总

数据集介绍

构建方式

在构建面向人机交互的多模态对话数据集时，AliCHI采用精心设计的采集方案，以捕捉人类自然对话中的言语与非言语行为。该数据集通过邀请200名参与者，在预设的日常话题（如体育、旅行）下进行面对面对话，共收集了635个对话会话，总时长达到52小时。数据采集使用具备前后摄像头的智能手机，确保双视角视频的完全同步，并记录参与者上半身的丰富非言语动作。为保护隐私并提升数据可用性，研究团队对原始视频进行了精细标注，包括言语内容的起止时间戳以及涵盖表情、头部动作、眼部动作等五大模态的27类非言语行为标签，共计标注了66,912个非言语行为实例。

使用方法

AliCHI数据集主要用于训练和评估类人对话系统的核心能力，特别是话轮转换预测与反馈信道预测任务。研究者可利用数据集中带有时序标注的言语内容与非言语行为标签，开发多模态机器学习模型，以预测对话中合适的回应时机、言语内容及伴随的非言语动作。数据集配套发布了自动化评估工具，该工具以Python SDK形式提供，能够基于标准指标（如时间交并比IoU、文本相似度BLEU/ROUGE、行为分类准确率）对系统预测结果进行量化评估。开发者可将此工具集成到自有系统中，利用AliCHI作为基准真值，客观衡量系统在模拟人类对话交互方面的性能表现。

背景与挑战

背景概述

在人工智能与人机交互领域，构建拟人化对话系统是提升用户体验的关键方向。AliCHI数据集由阿里巴巴达摩院与浙江大学合作，于2022年推出，旨在解决现有对话系统因数据单一或规模有限而难以模拟人类非语言行为的核心问题。该数据集收录了200名参与者在面对面会话中产生的635段对话，总计52小时的多模态视频数据，并精细标注了语言与非语言行为的时间戳。通过提供大规模、高质量的多模态资源，AliCHI显著推动了拟人化对话系统在轮转预测和反馈预测等任务上的研究进展，为相关领域的算法开发与评估奠定了坚实基础。

当前挑战

拟人化对话系统面临的核心挑战在于如何精准模拟人类交互中的复杂动态，包括语言轮转的时机把握与非语言反馈的协调表达。AliCHI数据集构建过程中，需克服多模态数据同步采集的技术难题，确保双视角视频的时间对齐；同时，在数据标注阶段，需处理大规模非语言行为（如表情、手势）的细粒度分类与时间定位，这对标注一致性与精度提出了极高要求。此外，数据收集需兼顾参与者的自然表现与隐私保护，进一步增加了数据集构建的复杂性与伦理考量。

常用场景

经典使用场景

在类人对话系统研究中，AliCHI数据集常被用于多模态交互行为的建模与分析。该数据集通过大规模面对面对话视频，捕捉了丰富的言语与非言语行为，为研究者提供了训练和验证模型的基础。其经典使用场景包括构建能够预测对话中轮转和反馈信号的智能系统，这些系统需在精确的时间点生成合适的言语回应或非言语动作，以模拟人类自然的交流模式。

解决学术问题

AliCHI数据集有效解决了类人对话系统领域长期存在的学术难题，特别是单模态数据局限性和小规模数据集导致的模型泛化能力不足问题。通过提供52小时的多模态标注数据，该数据集支持对轮转预测和反馈预测等核心任务进行精细化研究，促进了非言语行为建模的理论进展，为开发更自然、更人性化的人机交互系统奠定了数据基础。

实际应用

在实际应用层面，AliCHI数据集推动了智能客服、虚拟助手和人形机器人等领域的进步。基于该数据集训练的模型能够使系统在对话中适时微笑、点头或做出手势，显著提升用户体验的真实感与沉浸感。这些应用不仅优化了服务行业的自动化交互，还为教育、医疗等场景中的辅助对话系统提供了技术支撑。

数据集最近研究