Korean Disaster Safety Information Sign Language Translation Benchmark Dataset

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/SSL-Sign-Language/Korean-Disaster-Safety-Information-Sign-Language-Translation-Benchmark-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于韩国灾难安全信息的韩语手语翻译，提供了一个基准用于评估和开发手语翻译系统。

This dataset focuses on the Korean sign language translation of disaster safety information in South Korea, providing a benchmark for the evaluation and development of sign language translation systems.

创建时间：

2024-03-20

原始信息汇总

数据集概述

数据集名称

SSL: Korean Disaster Safety Information<br>Sign Language Translation Benchmark Dataset

数据集描述

该数据集是一个用于韩国灾难安全信息手语翻译的基准数据集。它解决了现有数据集在计算资源、训练与测试集异质性以及数据未精炼方面的问题。数据集通过精炼原始数据并发布，为韩国手语翻译研究提供了新的基准。

数据集结构

README.md: 项目概述和描述
main.py: 项目主执行文件
requirements.txt: 项目依赖列表
src/: 包含项目源代码
- __init__.py: 包初始化文件
- args.py: 处理命令行参数
- keypoint_extractor.py: 提取关键点模块
- language_processor.py: 语言处理模块
- processor.py: 通用处理模块
- sign_processor.py: 手语预处理模块
- video_processor.py: 视频处理模块
visualize_keypoint.ipynb: 关键点可视化Jupyter笔记本

运行指南

使用以下命令运行数据预处理： bash python main.py --root_path <path_to_downloaded_data> --save_path <path_to_save_results>

默认情况下，未设置--save_path时，将在./result自动创建结果文件夹。

结果结构

运行main.py后，将生成以下文件夹结构：

result/: 包含main.py生成的输出
- Train/: 包含训练数据结果
  - Keypoint/: 保存每个手语视频帧提取的关键点npy文件
  - Language/: 保存json和vocab文件
  - Video/: 逐帧预处理视频，保存每一帧
- Validation/: 结构与Train/相同

引用信息

若在研究中使用此代码，请引用以下论文：

@inproceedings{kim-etal-2024-korean-disaster, title = "{K}orean Disaster Safety Information Sign Language Translation Benchmark Dataset", author = "Kim, Wooyoung and Kim, TaeYong and Kim, Byeongjin and Lee, Myeong Jin MJ and Lee, Gitaek and Kim, Kirok and Cha, Jisoo and Kim, Wooju", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italy", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.869", pages = "9948--9953", abstract = "Sign language is a crucial means of communication for deaf communities. However, those outside deaf communities often lack understanding of sign language, leading to inadequate communication accessibility for the deaf. Therefore, sign language translation is a significantly important research area. In this context, we present a new benchmark dataset for Korean sign language translation named SSL:korean disaster Safety information Sign Language translation benchmark dataset. Korean sign language translation datasets provided by the National Information Society Agency in South Korea have faced challenges related to computational resources, heterogeneity between train and test sets, and unrefined data. To alleviate the aforementioned issue, we refine the origin data and release them. Additionally, we report experimental results of baseline using a transformer architecture. We empirically demonstrate that the baseline performance varies depending on the tokenization method applied to gloss sequences. In particular, tokenization based on characteristics of sign language outperforms tokenization considering characteristics of spoken language and tokenization utilizing statistical techniques. We release materials at our https://github.com/SSL-Sign-Language/Korean-Disaster-Safety-Information-Sign-Language-Translation-Benchmark-Dataset", }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于韩国国家信息社会机构提供的原始数据，经过精细化的处理与优化，旨在解决现有数据集在计算资源需求、训练与测试集异质性以及数据不规范性方面的问题。通过引入先进的预处理技术，包括关键点提取、语言与手语词汇处理以及视频帧逐帧预处理，确保数据集的高质量与一致性。

特点

该数据集的显著特点在于其专注于韩国灾难安全信息的手语翻译，涵盖了从视频帧到关键点的多层次数据结构，支持多种语言与手语词汇的联合处理。此外，数据集提供了详细的预处理模块，便于研究者快速上手并进行深度学习模型的训练与评估。

使用方法

使用该数据集时，用户需首先从AIhub下载原始数据并解压缩，随后克隆GitHub仓库并安装相关依赖。通过运行`main.py`脚本，用户可以轻松进行数据预处理，并根据需要设置根路径与保存路径。数据集的输出结果将按照训练与验证的结构分别存储，便于后续的模型训练与评估。

背景与挑战

背景概述

韩国灾难安全信息手语翻译基准数据集（Korean Disaster Safety Information Sign Language Translation Benchmark Dataset）是由Kim等人于2024年在LREC-COLING会议上发布的。该数据集旨在解决聋哑社区与外界沟通障碍的问题，特别是通过提供高质量的手语翻译数据集来促进韩国手语的翻译研究。该数据集的构建得到了韩国国家信息社会机构的支持，并由韩国国家研究基金会资助。其核心研究问题是如何有效处理和翻译韩国手语，以提高聋哑人群的沟通可及性。该数据集的发布不仅填补了韩国手语翻译领域的数据空白，还为相关研究提供了基准，推动了手语翻译技术的发展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，原始数据的异质性问题导致了训练集与测试集之间的不一致性，增加了数据处理的复杂性。其次，手语数据的精细化处理要求高，尤其是在提取关键点和视频帧预处理方面，需要高效的算法和计算资源。此外，手语翻译的特殊性使得传统的语言处理技术难以直接应用，研究人员需要开发适合手语特征的tokenization方法。最后，数据集的发布和维护也面临技术支持和社区反馈的挑战，以确保数据集的持续更新和改进。

常用场景

经典使用场景

韩国灾难安全信息手语翻译基准数据集（SSL）在手语翻译领域具有广泛的应用前景。该数据集通过提供高质量的手语视频和相应的语言标注，为研究人员提供了一个标准化的基准，用于开发和评估手语翻译模型。其经典使用场景包括对手语视频进行关键点提取、语言处理以及视频帧的预处理，从而为手语翻译模型的训练和验证提供了丰富的数据资源。

衍生相关工作

基于SSL数据集，许多相关研究工作得以展开。例如，研究人员可以利用该数据集开发基于Transformer架构的手语翻译模型，并通过实验验证不同分词方法对手语翻译性能的影响。此外，该数据集还为手语关键点提取、视频帧预处理等技术提供了实验平台，推动了手语处理技术的进一步发展。

数据集最近研究