iSign

Name: iSign
Creator: 印度理工学院坎普尔分校, 马克斯普朗克心理语言学研究所, 印度聋人手语研究和培训中心, 微软印度开发中心
Published: 2024-07-07 23:07:35
License: 暂无描述

arXiv2024-07-07 更新2024-07-12 收录

下载链接：

https://exploration-lab.github.io/iSign/

下载链接

链接失效反馈

官方服务：

资源简介：

iSign数据集由印度理工学院坎普尔分校等机构创建，是印度手语处理领域最大的数据集，包含118,228个视频-句子/短语对。数据集内容涵盖多种主题，通过从YouTube等平台收集的视频和相应的英语转录创建。创建过程包括视频预处理和分割，以确保数据质量。该数据集主要用于推动印度手语的机器学习和自然语言处理技术的发展，解决手语翻译和识别等问题。

The iSign Dataset, developed by institutions including the Indian Institute of Technology Kanpur and other relevant organizations, is the largest dataset in the field of Indian Sign Language processing, comprising 118,228 video-sentence/phrase pairs. It covers a wide range of topics and is created by collecting videos from platforms such as YouTube and their corresponding English transcriptions. The dataset construction process includes video preprocessing and segmentation to ensure data quality. This dataset is primarily intended to advance the development of machine learning and natural language processing technologies for Indian Sign Language, addressing issues such as sign language translation and recognition.

提供机构：

印度理工学院坎普尔分校, 马克斯普朗克心理语言学研究所, 印度聋人手语研究和培训中心, 微软印度开发中心

创建时间：

2024-07-07

原始信息汇总

iSign: A Benchmark for Indian Sign Language Processing

概述

iSign是一个用于印度手语处理（Indian Sign Language Processing, ISL）的基准数据集。该数据集旨在促进印度手语的翻译和识别研究。

作者

Abhinav Joshi1
Romit Mohanty1
Mounika Kanakanti2
Andesha Mangla3
Sudeep Choudhary4
Monali Barbate4
Ashutosh Modi1

机构

1IIT Kanpur
2Max Planck Institute for Psycholinguistics
3ISLRTC
4Microsoft

数据集链接

数据集下载链接

数据集内容

iSign数据集包含以下任务：

任务列表

任务编号	任务名称	数据链接
Task-1	ISL-to-English Translation	a) ISLVideo-to-English Translation <br> b) ISLPose-to-English Translation
Task-2	English-to-ISLPose Generation	English Translation-to-ISLPose
Task-3	Word/Gloss Recognition (Isolated Sign Recognition)	CISLR
Task-4	Word Presence Prediction	Word-ExampleSentence-pairs
Task-5	Semantic Similarity Prediction	Word-Description-pairs

数据集目录结构

数据集的目录结构如下：

plaintext iSign-Benchmark ├── Data ├── ISL-videos.tar.gz # ISL sentence/phrase videos ├── Extracted-Features ├── mediapipe_holistic_poses1.tar.gz ├── mediapipe_holistic_poses2.tar.gz . . ├── mediapipe_holistic_poses12.tar.gz ├── mediapipe_holistic_poses13.tar.gz ├── Sample-Data ├── dataset_sample ├── def-words # DEF word videos sample ├── generation # ISL generation video

搜集汇总

数据集介绍

构建方式

iSign数据集的构建主要依赖于YouTube上三个公开且经过授权的资源：ISLRTC视频、ISH新闻和DEF短语。这些视频包含单个手语使用者以印度手语（ISL）进行信息交流，并伴有英文字幕。视频经过预处理后被分割成视频-句子/短语对。为了确保数据集的质量，研究人员邀请了三位认证的ISL手语使用者对一小部分数据进行了人工翻译和验证。由于ISL-英语句子对的数量庞大，整个语料库的验证是一个耗时且艰巨的任务。尽管如此，研究人员仍然计划在未来扩大数据集，并增加更多的ISL任务。

特点

iSign数据集是迄今为止最大的ISL-英语数据集，包含超过118,000个视频-句子/短语对。该数据集涵盖了各种主题，并通过多种方式收集，包括教育内容和新闻。iSign数据集的独特之处在于其规模之大，以及它为研究社区提供的基准任务，包括视频到文本翻译、姿态到文本翻译、文本到姿态生成、单词预测和手语语义等。此外，数据集还提供了关于ISL语言功能的语言学见解，这些见解有助于研究人员更好地理解ISL，并为开发专门的神经网络架构提供信息。

使用方法

iSign数据集的使用方法包括下载数据集、使用基准模型进行实验和比较，以及参与由iSign维护的基准网页上的排行榜。研究人员可以访问各种基准任务的数据和模型，并使用这些资源来训练和评估他们自己的模型。此外，研究人员还可以利用数据集中的语言学见解来开发更有效的手语处理技术。iSign数据集的发布旨在促进手语处理技术的发展，并为研究人员提供一个标准化的平台来进行实验和比较。

背景与挑战

背景概述

印度手语（ISL）是一种广泛使用的视觉语言，但其在机器学习和数据驱动方法的发展中资源有限。尽管基于文本/音频的语言处理技术在近年来取得了巨大的研究兴趣和进步，但由于资源不足，手语仍然需要追赶。为了弥合这一差距，研究人员提出了iSign：一个印度手语处理的基准数据集。该数据集由IIT Kanpur和Max Planck Institute for Psycholinguistics等机构的研究人员创建，于2024年7月发布。iSign的主要贡献包括：首先，发布了超过118k个视频-句子/短语对的ISL-英语数据集，这是迄今为止ISL可用的最大手语数据集。其次，提出了多个NLP特定的任务，包括SignVideo2Text、SignPose2Text、Text2Pose、Word Prediction和Sign Semantics，并与基准模型进行了比较，以方便研究社区的访问。第三，提供了对所提出基准的详细见解，以及一些关于ISL运作的语言学见解。iSign旨在促进印度手语处理技术的发展，并为NLP研究社区提供标准化平台。

当前挑战

iSign数据集和相关任务的创建面临着一系列挑战。首先，ISL-英语句子对的验证是一个挑战，由于缺乏认证的ISL手语翻译人员，只能对数据集的一个小部分进行人工翻译和验证。其次，由于ISL-英语对是由从较长的视频中剪辑的句子级别视频创建的，因此ISL签署句子和相应的英语句子之间的对齐可能会被破坏。第三，ISL的共指性是数据集的一个主要限制，因为翻译相同的名称可能会因为缺乏对创建的短符号或分配的空间的引用而变得困难。第四，由于数据集的大部分内容来自ISLRTC创建的教育内容，其中包含故事中的虚构角色，因此存在角色转换的问题，这可能会导致同一句子的手势变化，从而使得翻译预测更具挑战性。最后，iSign数据集没有与其他手语（如ASL和DGS）进行比较，这需要大量的人力资源和专业知识。

常用场景

经典使用场景

在自然语言处理领域，尤其是在印度手语处理方面，iSign 数据集的提出和应用为研究者和开发人员提供了一个强大的工具。该数据集包含了超过 118k 个视频-句子/短语对，是目前为止最大的印度手语数据集。它被广泛应用于各种任务，包括 SignVideo2Text 翻译、SignPose2Text 翻译、Text2Sign 翻译、Sign/Gloss 识别、Sign Presence Detection 和 Sign Semantic Similarity Prediction 等。这些任务旨在促进印度手语处理技术的发展，并推动相关研究领域的进步。

衍生相关工作

iSign 数据集的发布为印度手语处理领域的研究和开发提供了新的方向和思路。它促进了相关技术的创新和发展，同时也为研究者提供了丰富的数据和任务。基于 iSign 数据集，研究者可以开展各种任务的研究和开发，包括印度手语识别、翻译和生成等。此外，iSign 数据集还可以用于开发印度手语教学和辅助工具，帮助人们学习和掌握印度手语。随着技术的不断发展，iSign 数据集的应用场景将会越来越广泛，为听障人士提供更多的帮助。

数据集最近研究