Multimodal Greek Sign Language and Lip Reading Dataset v1.0 (GLaM-Sign)
收藏arXiv2025-01-09 更新2025-01-11 收录
下载链接:
https://github.com/dkourem/Greek-Multimodal-SpeechDataset-Corpus-v1
下载链接
链接失效反馈官方服务:
资源简介:
GLaM-Sign数据集是一个多模态数据集,由FEELIT项目开发,旨在提升旅游行业中聋哑及听力障碍人士的可访问性。该数据集集成了同步的音频、视频、文本转录和希腊手语翻译,包含15,166条话语,总计279,042个单词,词汇量为17,989个独特术语。数据集通过高分辨率音频、详细视频和精确文本转录,支持语音识别、唇读系统和AI可访问性工具的开发。其创建过程涉及视频处理、音频提取和字幕生成等技术,主要应用于旅游行业的实时字幕生成、交互式翻译应用和教育工具,旨在解决聋哑及听力障碍人士在旅游中的沟通障碍问题。
The GLaM-Sign dataset is a multimodal resource developed by the FEELIT project, aimed at enhancing accessibility for deaf and hard-of-hearing individuals within the tourism industry. This dataset integrates synchronized audio, video, text transcripts, and Greek Sign Language translations, comprising 15,166 utterances totaling 279,042 words and boasting a vocabulary of 17,989 unique terms. Featuring high-resolution audio, detailed video footage, and precise text transcripts, it supports the development of speech recognition systems, lip-reading technologies, and AI-powered accessibility tools. The dataset's development workflow encompasses video processing, audio extraction, and subtitle generation techniques. Its primary applications include real-time subtitle generation, interactive translation applications, and educational tools for the tourism sector, with the core goal of resolving communication barriers encountered by deaf and hard-of-hearing individuals during travel.
提供机构:
国家科学研究中心“德谟克利特”信息与电信研究所, 西阿提卡大学工商管理系
创建时间:
2025-01-09
搜集汇总
数据集介绍

构建方式
GLaM-Sign数据集的构建过程体现了多模态数据整合的前沿技术。该数据集通过同步采集高分辨率音频、视频唇部运动、文本转录以及希腊手语(GSL)翻译,形成了一个多维度的数据资源。具体而言,音频部分包含希腊语的高质量录音,视频部分则捕捉了详细的唇部运动,用于语音对齐任务。文本部分提供了精确的逐字时间戳转录,而手语部分则通过视频形式呈现了同步的GSL翻译。数据集的构建还涉及计算机视觉技术,如使用Python脚本进行面部区域提取和裁剪,以确保视频数据的质量。此外,音频处理通过FFmpeg工具完成,确保了音频与视频的同步性。
特点
GLaM-Sign数据集的特点在于其多模态性和文化特异性。数据集不仅涵盖了希腊语的语音、唇部运动和文本转录,还首次整合了希腊手语翻译,填补了非英语语言在手语识别和语音识别领域的空白。数据集包含15,166个话语,总计279,042个单词,词汇量达到17,989个独特术语,平均每个话语长度为18.41个单词。这种多样性使其适用于需要语言多样性和语音精确性的应用场景。此外,数据集还提供了逐字时间戳的文本转录,尽管在单词级别的时间戳精度上存在一定挑战,但其句子级别的时间戳准确性高达92%。
使用方法
GLaM-Sign数据集的使用方法涵盖了多个研究领域,尤其是语音识别、唇读系统和手语翻译。研究人员可以利用该数据集开发实时字幕生成系统、交互式翻译应用以及用于旅游行业的无障碍培训工具。数据集的多模态特性使其能够支持从语音到手语的自动翻译任务,同时也可用于训练唇读AI模型。具体使用流程包括通过Python脚本处理视频数据,提取面部区域并进行裁剪,使用Whisper模型进行音频转录并生成逐字时间戳的文本文件。此外,数据集还支持通过N-gram模型进行语音错误的自动校正,进一步提高了转录的准确性。
背景与挑战
背景概述
GLaM-Sign数据集是由希腊国家研究中心的Dimitris Kouremenos和Klimis Ntalianis等研究人员于2025年开发的,旨在通过多模态数据提升聋哑及听力障碍(DHH)群体在旅游行业中的可访问性。该数据集集成了同步的音频、视频唇部运动、文本转录以及希腊手语(GSL)翻译,为语音识别、唇读AI和实时字幕生成等应用提供了支持。作为FEELIT项目的一部分,GLaM-Sign不仅填补了希腊语言在语音和手语翻译领域的空白,还为全球多模态AI研究提供了新的基准。其创新之处在于将希腊语言的语音复杂性与手语翻译相结合,推动了面向少数语言群体的AI技术的发展。
当前挑战
GLaM-Sign数据集在构建和应用中面临多重挑战。首先,希腊语言的语音复杂性和多样性对语音识别和唇读模型的准确性提出了较高要求,尤其是在处理快速对话和模糊发音时。其次,数据集在构建过程中遇到了单词级时间戳对齐的难题,尽管句子级时间戳的准确性较高,但单词级对齐的准确率仅为30%-40%,主要由于语音重叠和快速对话导致的时间戳不精确。此外,数据集的手语翻译部分需要克服希腊手语的语法和文化特异性,确保翻译的自然性和准确性。未来,研究者计划通过引入强化学习和语音对齐算法来优化时间戳精度,并进一步扩展数据集以支持更多语言和文化背景的应用。
常用场景
经典使用场景
GLaM-Sign数据集在语音识别、唇读AI和实时字幕生成等领域的应用尤为突出。通过整合同步的音频、视频、文本和希腊手语(GSL)翻译,该数据集为多模态机器学习提供了丰富的资源,特别适用于希腊语的复杂语音和语言结构。研究人员可以利用该数据集开发先进的语音转手语系统,提升聋哑人士在旅游等场景中的沟通体验。
实际应用
GLaM-Sign数据集的实际应用主要集中在旅游行业的无障碍服务中。通过开发基于该数据集的实时字幕生成系统和交互式翻译应用,聋哑人士可以更便捷地获取旅游信息,提升其旅行体验。此外,该数据集还可用于培训旅游从业人员,帮助他们更好地服务聋哑游客,推动旅游行业的包容性发展。
衍生相关工作
GLaM-Sign数据集启发了多项相关研究,特别是在希腊手语翻译和多模态AI领域。例如,基于该数据集的研究开发了希腊文本到手语的转换系统,并进一步探索了3D手语动画技术。此外,该数据集还为全球多语言无障碍技术的发展提供了参考,推动了类似数据集在其他语言和文化背景下的创建与应用。
以上内容由遇见数据集搜集并总结生成



