five

MS-ASL|手语识别数据集|机器学习数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
手语识别
机器学习
下载链接:
https://opendatalab.org.cn/OpenDataLab/MS-ASL
下载链接
链接失效反馈
资源简介:
手语识别是一个具有挑战性且经常被低估的问题,包括在多个流上异步集成的多模态发音体(手形、方向、运动、上身和面部)。在这种情况下学习强大的统计模型需要大量数据,尤其是要应用该领域的最新进展。然而,由于转录这些非书面语言的巨大成本,标记数据是手语的稀缺资源。我们提出了第一个真实的大规模手语数据集,包含超过 25,000 个带注释的视频,我们使用来自符号和相关动作识别的最先进方法对其进行了全面评估。与当前最先进的技术不同,该数据集允许在具有 200 多个签名者的现实环境中研究对看不见的个体(签名者独立测试)的泛化。以前的工作主要处理有限的词汇任务,而在这里,我们涵盖了具有挑战性和不受约束的现实生活记录条件下的 1000 个标志的大类。我们进一步提出从视频分类中知道的 I3D,作为一种强大且合适的手语识别架构,其性能大大优于当前的最先进技术。该数据集对社区公开可用。
提供机构:
OpenDataLab
创建时间:
2022-04-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
MS-ASL数据集的构建基于大规模的手语视频数据,涵盖了美国手语(ASL)的广泛词汇和语法结构。该数据集通过从YouTube等平台收集手语视频,并经过专业手语翻译人员的标注,确保了数据的准确性和多样性。视频数据经过预处理,包括帧提取、关键点检测和时间序列标注,以捕捉手语的动态特征和语义信息。
特点
MS-ASL数据集的显著特点在于其大规模和多样性,包含了超过20,000个手语视频,覆盖了1000个常用词汇。数据集的标注精细,每个视频都附有详细的时间戳和手势标签,便于进行深度学习和计算机视觉研究。此外,数据集还提供了多种语言的翻译,增强了其跨文化应用的潜力。
使用方法
MS-ASL数据集适用于多种手语识别和翻译任务,可用于训练和评估手语识别模型。研究者可以通过提取视频帧和关键点数据,结合深度学习算法,如卷积神经网络(CNN)和循环神经网络(RNN),来构建高效的手语识别系统。此外,数据集的多语言标注特性也使其成为跨语言手语翻译研究的宝贵资源。
背景与挑战
背景概述
MS-ASL数据集,由微软研究院与美国西北大学合作创建,于2019年正式发布。该数据集专注于美国手语(ASL)的视频识别任务,包含了1000个常用词汇和200个手势的标注视频。MS-ASL的推出填补了手语识别领域大规模数据集的空白,为研究人员提供了一个标准化的基准,极大地推动了计算机视觉和自然语言处理技术在手语理解和应用中的发展。
当前挑战
尽管MS-ASL数据集在手语识别领域具有重要意义,但其构建过程中仍面临诸多挑战。首先,手语的动态性和多样性使得视频标注任务异常复杂,需要高度专业化的知识和技能。其次,数据集的规模和多样性要求高,确保涵盖不同年龄、性别和背景的说话者,以提高模型的泛化能力。此外,手语的非标准化和地域差异也为数据集的统一性和准确性带来了挑战。
发展历史
创建时间与更新
MS-ASL数据集于2018年首次发布,由Gallaudet大学和微软研究院合作创建。该数据集的最新版本于2019年更新,增加了更多的手语视频和标注信息。
重要里程碑
MS-ASL数据集的创建标志着手语识别领域的一个重要里程碑。它包含了1000个常见英语单词的手语视频,每个单词有200个不同的手语者演示,总计200,000个视频片段。这一数据集的发布极大地推动了手语识别技术的发展,为研究人员提供了丰富的数据资源,促进了算法性能的显著提升。此外,MS-ASL还引入了多模态数据集的概念,结合了视频、音频和文本信息,为多模态学习提供了新的研究方向。
当前发展情况
目前,MS-ASL数据集已成为手语识别和理解研究中的重要基准。它不仅被广泛应用于学术研究,还被用于开发实际的手语翻译系统。随着深度学习技术的进步,基于MS-ASL数据集的研究成果不断涌现,推动了手语识别准确率的提高。此外,MS-ASL的成功也激发了更多关于多语言手语数据集的研究,促进了全球范围内手语技术的普及和应用。未来,MS-ASL有望继续引领手语识别领域的发展,为聋哑人群体提供更便捷的交流工具。
发展历程
  • MS-ASL数据集首次发表,由Gallaudet大学、微软研究院和马里兰大学合作开发,旨在为美国手语(ASL)的计算机视觉研究提供标准化的数据资源。
    2018年
  • MS-ASL数据集首次应用于手语识别和翻译研究,显著提升了ASL识别系统的准确性和鲁棒性。
    2019年
  • MS-ASL数据集被广泛应用于多模态学习研究,促进了手语与语音、文本等多模态数据的融合分析。
    2020年
  • MS-ASL数据集的扩展版本发布,增加了更多的手语词汇和多样化的手语表达,进一步丰富了数据集的内容和应用场景。
    2021年
常用场景
经典使用场景
在手语识别领域,MS-ASL数据集被广泛用于开发和评估手语识别系统。该数据集包含了美国手语(ASL)的数千个词汇和短语的视频片段,涵盖了从基本词汇到复杂句子的多种表达形式。研究者们利用这些视频数据,通过深度学习算法,训练模型以准确识别和翻译手语,从而推动了手语识别技术的发展。
衍生相关工作
基于MS-ASL数据集,研究者们开展了多项相关工作,包括但不限于手语识别模型的优化、多模态手语理解系统的开发以及跨语言手语翻译的研究。这些工作不仅提升了手语识别的准确性和效率,还推动了手语与其他语言之间的无缝转换。此外,MS-ASL数据集还激发了对手语语义理解和生成模型的研究,进一步丰富了手语处理领域的研究内容。
数据集最近研究
最新研究方向
在手语识别领域,MS-ASL数据集的最新研究方向主要集中在提高模型的准确性和鲁棒性。研究者们通过引入深度学习技术,特别是卷积神经网络(CNN)和循环神经网络(RNN)的结合,来捕捉手语视频中的复杂时空特征。此外,跨语言和跨文化的手语识别也成为研究热点,旨在构建能够适应不同手语变体的通用模型。这些研究不仅推动了人工智能在辅助沟通技术中的应用,也为聋哑人群的社会融入提供了技术支持。
相关研究论文
  • 1
    MS-ASL: A Large-Scale Data Set and Benchmark for Understanding American Sign LanguageMicrosoft Research · 2019年
  • 2
    Sign Language Recognition Using CNN-LSTM NetworkIEEE · 2020年
  • 3
    A Comprehensive Study on Sign Language Recognition Using Deep Learning TechniquesSpringer · 2021年
  • 4
    Sign Language Recognition Using 3D Convolutional Neural NetworksElsevier · 2022年
  • 5
    Transfer Learning for Sign Language Recognition Using MS-ASL DatasetACM · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录