SignThought
收藏arXiv2026-04-17 更新2026-04-19 收录
下载链接:
https://github.com/fletcherjiang/SignThought
下载链接
链接失效反馈官方服务:
资源简介:
SignThought是一个新构建的大规模无注释手语翻译数据集,由香港理工大学和四川大学的研究团队开发。该数据集具有更强的上下文依赖性和更真实的语义表达,旨在解决传统手语翻译系统中将手语视频片段直接映射到口语单词的局限性。数据集通过收集手语视频和对应的口语翻译句子构建,为研究跨模态推理任务提供了重要资源,可应用于手语翻译、辅助技术等领域。
SignThought is a newly constructed large-scale unannotated sign language translation dataset developed by research teams from The Hong Kong Polytechnic University and Sichuan University. This dataset exhibits stronger contextual dependency and more authentic semantic expressions, aiming to address the limitations of traditional sign language translation systems that directly map sign language video clips to spoken words. The dataset is constructed by collecting sign language videos and their corresponding spoken translation sentences, providing a crucial resource for research on cross-modal reasoning tasks, and can be applied in fields such as sign language translation and assistive technologies.
提供机构:
香港理工大学; 四川大学
创建时间:
2026-04-17
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称:SignThought
- 关联研究:Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation (ACL 2026)
- 核心目标:提出一种新的无注释手语翻译范式,通过潜在思想抽象、计划-基础解耦和可追溯证据对齐机制,解决手语中动态“生产性形式”的翻译难题。
数据集内容与特征
- 视觉特征:使用预提取的1024维视觉特征,特征提取器基于开源的Inception网络,移除了依赖于注释的监督,并仅使用配对的手语视频-句子数据进行句子级对比目标训练。
- 涵盖数据集:
- PHOENIX2014T
- CSL-Daily
数据获取与准备
-
特征下载地址:
- PHOENIX2014T: https://connectpolyu-my.sharepoint.com/:f:/g/personal/25014758r_connect_polyu_hk/IgAnU8PHNGn6Q4jCLm6Yb5UKAfZzqYeZVYgwXWpL_jKey2E?e=YZbi5R
- CSL-Daily: https://connectpolyu-my.sharepoint.com/:f:/g/personal/25014758r_connect_polyu_hk/IgAnU8PHNGn6Q4jCLm6Yb5UKAfZzqYeZVYgwXWpL_jKey2E?e=YZbi5R
-
文件目录结构:
data/ ├── PHOENIX2014T/ │ ├── phoenix14t.train │ ├── phoenix14t.dev │ └── phoenix14t.test └── csl/ ├── csl.train ├── csl.dev └── csl.test
模型训练与推理
- 训练命令:
- PHOENIX2014T:
CUDA_VISIBLE_DEVICES=0 python -m main train configs/sign_phoenix.yaml - CSL-Daily:
CUDA_VISIBLE_DEVICES=0 python -m main train configs/sign_csl.yaml
- PHOENIX2014T:
- 推理命令:
- PHOENIX2014T:
CUDA_VISIBLE_DEVICES=0 python -m main test configs/sign_phoenix.yaml --ckpt experiment_results/phoenix14t_auto/best.ckpt - CSL-Daily:
CUDA_VISIBLE_DEVICES=0 python -m main test configs/sign_csl.yaml --ckpt experiment_results/csl_auto/best.ckpt
- PHOENIX2014T:
关键配置参数
| 参数 | 默认值 | 描述 |
|---|---|---|
thinking.K |
8 | 潜在思想槽的数量 |
thinking.num_layers |
2 | 思考层数 |
thinking.num_segments |
8 | 软分段标记M的数量 |
training.batch_size |
32 | 批次大小 |
training.learning_rate |
1e-3 | 初始学习率 |
training.lambda_mono |
0.1 | 单调性正则化权重 |
training.lambda_cont |
0.2 | 连续性正则化权重 |
引用
bibtex @misc{jiang2026thinklatentthoughtsnew, title={Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation}, author={Yiyang Jiang and Li Zhang and Xiao-Yong Wei and Li Qing}, year={2026}, eprint={2604.15301}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.15301}, }
搜集汇总
数据集介绍
构建方式
在构建SignThought数据集时,研究团队从香港政府及立法会的公开简报视频中收集了约1,300小时的香港手语视频素材,这些视频均包含持续可见的手语翻译员。通过自动语音识别技术对伴音进行转录,获得句子级别的文本翻译,从而形成了大规模的手语-文本配对数据。该数据集摒弃了传统手语翻译中依赖的注释词汇表,仅提供弱监督的句子级标注,以模拟真实世界仅凭视频和对应语句即可进行翻译的应用场景。数据经过分段处理,确保训练、验证和测试集之间无句子重叠,以支持模型在可控环境下的公平评估。
特点
SignThought数据集的核心特点在于其大规模与真实性,它涵盖了超过1,300小时的手语视频,包含约432,000个视频片段,涉及14位手语者,翻译词汇量达125,833个中文词句。数据集强调上下文依赖性,视频内容源自实际广播场景,手语表达富含即时的空间、运动与语境语义,而非静态的词汇映射。此外,该数据集完全无需注释词汇表,仅依靠句子级监督,推动了模型进行跨模态推理与语义组合的能力,为研究无注释手语翻译提供了重要的实证基础。
使用方法
SignThought数据集主要用于训练和评估无注释手语翻译模型,尤其适合研究基于推理的翻译框架。在使用时,模型接收手语视频序列作为输入,并直接生成对应的自然语言句子,无需任何中间注释信息。数据集支持端到端的训练,鼓励模型学习从连续视觉流中提取并组织语义,通过潜在思维链进行多步推理。研究人员可利用该数据集验证模型在长序列、强上下文依赖场景下的翻译忠实度与连贯性,并通过其大规模特性探索数据缩放对模型性能的影响。
背景与挑战
背景概述
手语翻译作为连接聋哑及听力障碍社区的关键辅助技术,其研究范式正经历深刻变革。SignThought数据集由香港理工大学与四川大学的研究团队于2026年构建,旨在应对传统手语翻译系统将连续手语视频片段直接映射为静态词汇的局限性。该数据集的核心研究问题聚焦于无注释手语翻译,即仅依赖视频与句子级翻译对,摒弃传统依赖注释词汇表的中间表示。通过引入潜在思维链作为视频与文本生成间的显式中间语义层,该数据集推动了手语翻译从简单的视频到文本转换向跨模态推理任务的范式转变,对自然语言处理与计算机视觉的交叉领域产生了重要影响。
当前挑战
SignThought数据集所针对的无注释手语翻译领域,其核心挑战在于手语意义的动态生成特性。手语意义并非固定于离散词汇单元,而是通过分类词、空间语法与运动调制在语境中实时构建,这导致传统基于对齐的翻译方法难以捕捉其生成性与上下文依赖性。在数据集构建过程中,研究团队面临从连续视觉证据到离散推理原语的映射难题。具体而言,需要从冗长、连续的视频流中逐步提炼并组织语义,同时确保生成的潜在思维链既能作为高层语义规划,又能作为可追溯的锚点与输入视频的特定时间区域对齐,这对大规模、弱监督数据的标注与对齐提出了极高要求。
常用场景
经典使用场景
在自然语言处理与计算机视觉交叉领域,SignThought数据集为无注记手语翻译研究提供了关键支撑。该数据集通过构建大规模、仅含句子级监督的香港手语视频-文本对,摒弃了传统依赖注记符号的范式,直接建模从连续视觉序列到自然语言的映射关系。其经典使用场景在于推动基于隐式推理的手语翻译模型开发,研究者可借助该数据集训练端到端框架,使模型学习从手语视频中逐步提炼语义信息,最终生成流畅的翻译文本。
实际应用
在实际应用层面,SignThought数据集为开发高效的手语翻译系统提供了现实基础。基于该数据集训练的模型可部署于广播新闻、在线视频平台或公共场合的实时翻译服务中,帮助听障人士无障碍获取信息。数据集强调的上下文依赖性和真实语义表达,能够提升翻译系统在复杂场景下的鲁棒性,例如处理手语中的类标记构造和空间指代。这些应用不仅促进了信息平等获取,也为多模态人机交互技术的进步提供了实践范例。
衍生相关工作
SignThought数据集衍生了一系列围绕隐式推理与跨模态对齐的经典研究工作。以隐式思维链为核心的研究方向,推动了如计划-落地解码机制、证据路由对齐等方法的创新。相关研究进一步探索了如何将潜在思维状态转化为可解释的推理轨迹,或在更大规模的多语言手语语料上扩展该范式。这些工作共同深化了对视觉-语言推理本质的理解,并为构建更通用、可扩展的手语翻译框架提供了理论支撑与技术路径。
以上内容由遇见数据集搜集并总结生成



