five

SignBank+

收藏
arXiv2024-03-21 更新2024-06-21 收录
下载链接:
https://github.com/sign-language-processing/signbank-plus
下载链接
链接失效反馈
官方服务:
资源简介:
SignBank+是一个针对机器翻译优化的多语种手语数据集,由巴伊兰大学和苏黎世大学合作创建。该数据集包含131个子集,覆盖从圣经书籍到词典和百科全书等多个领域。SignBank+通过精细的数据清洗和扩展,提高了数据质量,旨在解决手语与口语之间的翻译问题,为手语翻译研究提供了一个开放资源。

SignBank+ is a multilingual sign language dataset optimized for machine translation, co-developed by Bar-Ilan University and the University of Zurich. It comprises 131 subsets spanning diverse domains ranging from biblical texts to dictionaries and encyclopedias. Through meticulous data cleaning and expansion, SignBank+ has enhanced data quality, with the goal of addressing the translation gap between sign languages and spoken languages, and serving as an open resource for sign language translation research.
提供机构:
巴伊兰大学, 苏黎世大学
创建时间:
2023-09-21
搜集汇总
数据集介绍
main_image_url
构建方式
SignBank+ 数据集的构建过程始于对原始 SignBank 数据集的细致清洗和扩展。研究团队首先通过规则和人工校正相结合的方式,对数据集中的不一致性和错误进行了修正。随后,利用 ChatGPT 模型进行自动化清洗,通过定义伪函数 clean(number of signs, language code, terms) 来生成与手语书写系统 SignWriting 对应的准确文本。此外,数据集的扩展阶段通过伪函数 expand(language code, terms) 引入了多种语言表达的变体,以增强机器翻译模型的鲁棒性。
特点
SignBank+ 数据集的主要特点在于其高质量和多样性。经过清洗和扩展处理后,数据集不仅消除了原始数据中的噪声和不一致性,还通过引入多语言变体,显著提升了数据集的丰富性和复杂性。这种多样性有助于训练出更加健壮和准确的机器翻译模型,特别是在处理手语与口语之间的翻译任务时。
使用方法
SignBank+ 数据集适用于多种机器翻译任务,特别是手语与口语之间的翻译。研究者可以使用该数据集训练标准机器翻译模型,如 OpenNMT、Sockeye 和 Fairseq,以实现从手语书写系统 SignWriting 到口语文本的翻译。此外,数据集的扩展部分可以用于预训练模型,以进一步提升翻译性能。数据集的开放获取和详细的构建方法使其成为未来手语翻译研究的重要资源。
背景与挑战
背景概述
SignBank+ 数据集是由 Amit Moryossef 和 Zifan Jiang 等研究人员在 Bar-Ilan University 和 University of Zürich 合作开发的,旨在优化手语与口语之间的机器翻译。该数据集基于原有的 SignBank 数据集,通过精细的数据清洗和扩展,以适应 SignWriting 这一手语书写系统。SignBank+ 的创建不仅提升了翻译模型的准确性和可靠性,还简化了翻译机制,使得模型训练和部署更加便捷。该数据集的发布为手语翻译领域的研究提供了新的基准,并成为未来研究的重要资源。
当前挑战
SignBank+ 数据集在构建过程中面临多项挑战。首先,原始数据集由于社区贡献的特性,存在大量不一致和瑕疵,这对手语与口语之间的机器翻译构成了障碍。其次,数据清洗过程中需要高效且精确地处理这些不一致,以确保数据质量。此外,数据扩展虽然增加了语言表达的多样性,但也可能引入噪声,影响模型的性能。最后,评估扩展数据对模型性能的影响具有一定的主观性,需要进一步的研究来验证其有效性。
常用场景
经典使用场景
SignBank+ 数据集的经典使用场景主要集中在手语与口语之间的机器翻译任务。通过优化后的数据集,研究者能够训练出更高效的翻译模型,实现从口语文本到手语书写系统(如 SignWriting)的准确转换。这一应用场景在提升聋哑人士与听觉正常人士之间的沟通效率方面具有重要意义。
实际应用
在实际应用中,SignBank+ 数据集可用于开发手语翻译软件和应用,帮助聋哑人士更有效地与外界沟通。例如,它可以集成到视频会议系统中,实时将口语翻译成手语,或反之。此外,教育机构可以利用该数据集开发手语教学工具,提升教学效果。
衍生相关工作
基于 SignBank+ 数据集,研究者们进一步探索了多种相关工作。例如,Jiang 等人在 2023 年提出了将 SignWriting 编码为图像的方法,以减少符号数量并标准化音素顺序,从而提高翻译性能。此外,还有研究致力于创建和验证口语到手语翻译的鲁棒评估指标,以更好地衡量翻译质量。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作