Mandarin CS dataset

Name: Mandarin CS dataset
Creator: 香港科技大学（广州）
Published: 2025-08-01 15:40:39
License: 暂无描述

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

https://github.com/DennisHgj/Cued-Agent

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为汉语手势语数据集，由香港科技大学（广州）和腾讯AI实验室共同创建。数据集由八位听障人士的录制数据组成，共有十四个主题。数据集旨在支持自动手势语识别（ACSR）的研究，特别是Cued-Agent系统的开发。Cued-Agent是一种协同多智能体系统，通过四个专业子智能体的合作，实现了无训练参数的手势信息识别、无参数的手唇融合，以及从手势语视频到自然语言句子的自我纠正转换。

提供机构：

香港科技大学（广州）

创建时间：

2025-08-01

原始信息汇总

Cued-Agent数据集概述

数据集简介

首个用于自动提示语音识别的多智能体系统

主要特点

专注于提示语音识别领域
采用多智能体系统架构

应用方向

自动提示语音识别

搜集汇总

数据集介绍

构建方式

Mandarin CS数据集是通过收集来自八名听力障碍者的手语和唇动数据构建而成，形成了一个包含十四名受试者的混合数据集。数据采集在隔音环境中进行，涵盖了日常对话、文学摘录和新闻稿件等多种语言内容，确保数据的多样性和真实性。所有视频均以1280×720的分辨率和30帧每秒的帧率录制，保证了数据的高质量。

特点

Mandarin CS数据集是目前最大的听力障碍者手语数据集，特别注重听力障碍者的自然交流动态。数据集包含多种语言内容，从四字到二十五字不等的句子长度，覆盖了广泛的语音和手势组合。此外，数据集还提供了句子级别的标注，包括音素序列和自然语言句子，为自动手语识别系统提供了全面的训练和评估基础。

使用方法

该数据集主要用于自动手语识别（ACSR）系统的训练和评估。研究人员可以利用数据集中的手语和唇动视频，结合提供的音素序列和自然语言句子标注，开发多模态融合算法。此外，数据集还可用于评估模型在听力障碍者交流场景中的表现，推动无障碍通信技术的发展。

背景与挑战

背景概述

Mandarin CS dataset是由香港科技大学（广州）的研究团队于2025年创建的，旨在支持自动提示语音识别（ACSR）的研究。该数据集专注于解决听力障碍者的沟通问题，通过结合唇读和手部编码技术，将视觉和手势信息转化为文本。其核心研究问题在于如何有效融合异步的多模态信息（唇部动作和手部姿势）以实现高精度的语音识别。该数据集的推出显著推动了ACSR领域的发展，并为多模态融合和语音识别技术提供了重要的实验平台。

当前挑战

Mandarin CS数据集面临的主要挑战包括：1) 领域问题的挑战：由于唇读和手部动作的异步性，如何设计高效的跨模态融合机制以准确识别语音内容是一个关键难题；2) 构建过程中的挑战：数据收集涉及多名听力障碍者，其手部动作和唇部运动的自然变异性增加了数据标注和标准化的难度。此外，数据规模的限制也制约了复杂模型的训练效果。

常用场景

经典使用场景

Mandarin CS dataset 在自动提示语音识别（ACSR）领域中被广泛用于研究和开发多模态融合算法。该数据集通过捕捉手部动作和唇部运动的同步视频，为研究者提供了丰富的视觉和手势线索，用于训练和评估模型在将提示语音转化为文本方面的性能。特别是在处理听力障碍者的交流场景时，该数据集通过多模态信息的整合，显著提升了语音识别的准确性和鲁棒性。

解决学术问题

Mandarin CS dataset 解决了多模态融合中的时间异步性问题，这是ACSR领域中的一个关键挑战。传统方法在处理手部和唇部运动的异步性时，往往需要设计复杂的模块，而该数据集通过提供高质量的多模态数据，使得研究者能够开发出更高效的融合机制。此外，该数据集还支持从音素序列到自然语言句子的转换，填补了现有研究中语义和结构信息不足的空白。

衍生相关工作

Mandarin CS dataset 衍生了许多经典的多模态融合和语音识别研究。例如，基于该数据集的Cued-Agent系统首次实现了无需训练参数的手部和唇部信息融合，显著提升了识别性能。此外，该数据集还催生了多代理系统在ACSR任务中的应用，如手部识别代理和唇部识别代理的协同工作，为后续研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集