DGS-Fabeln-1-SE

Name: DGS-Fabeln-1-SE
Creator: 德国人工智能研究中心
Published: 2026-04-17 23:10:59
License: 暂无描述

arXiv2026-04-17 更新2026-04-21 收录

下载链接：

https://doi.org/10.5281/zenodo.18879038

下载链接

链接失效反馈

官方服务：

资源简介：

DGS-Fabeln-1-SE是由德国人工智能研究中心扩展构建的德国手语情感分析数据集，包含517个视频文本对齐片段。该数据集基于DGS-Fabeln-1平行语料库（含7个童话故事的574个片段），通过4个大语言模型对文本进行情感标注（负向/中性/正向），并利用MediaPipe提取视频中面部表情、肢体运动等288维动态特征。数据经过严格过滤，剔除混合情感片段，平均视频时长9.6秒，总时长92分钟。其创新性在于首次将童话叙事的情感波动与手语视频特征关联，为手语情感计算及无障碍通信技术研究提供重要基准。

DGS-Fabeln-1-SE is a German Sign Language (DGS) sentiment analysis dataset developed and expanded by the German Research Center for Artificial Intelligence (DFKI), which contains 517 aligned video-text segments. Based on the DGS-Fabeln-1 parallel corpus that includes 574 segments of 7 fairy tales, this dataset uses 4 large language models (LLMs) to perform sentiment annotation with three categories: negative, neutral and positive for the text. Moreover, MediaPipe is utilized to extract 288-dimensional dynamic features including facial expressions and body movements from the videos. The dataset has undergone strict filtering to remove segments with mixed sentiments, with an average video duration of 9.6 seconds and a total duration of 92 minutes. Its core innovation is that it is the first dataset to correlate the sentiment fluctuations in fairy tale narration with the visual features of sign language videos, providing a critical benchmark for research in sign language sentiment computing and accessible communication technologies.

提供机构：

德国人工智能研究中心

创建时间：

2026-04-17

原始信息汇总

DGS-Fabeln-1-SE 数据集概述

基本信息

标题: DGS-Fabeln-1-SE
发布日期: 2026年3月5日
版本: v1.0.0
访问状态: 开放
DOI: 10.5281/zenodo.18879038
资源类型: 数据集
发布者: Zenodo
出处: Proceedings of the fifteenth biennial Language Resources and Evaluation Conference (LREC 2026). Palma, Mallorca, Spain.
会议: Fifteenth biennial Language Resources and Evaluation Conference (LREC 2026), Palma, Mallorca, Spain, 16 May 2026
许可证: Creative Commons Attribution 4.0 International

作者/创建者

Nunnari, Fabrizio (Data curator) - Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Standort Saarbrücken
Jain, Siddhant (Data curator) - German Research Centre for Artificial Intelligence
Gebhard, Patrick (Editor) - German Research Centre for Artificial Intelligence

描述

DGS-Fabeln-1-SE数据集：带有情感估计的DGS（德国手语）童话1。

该数据集是对已发布的DGS-Fabeln-1数据集（数据：https://zenodo.org/records/12686707，论文：https://aclanthology.org/2024.lrec-main.434/）的补充。

两者的结合构成了一个平行语料库，包含：

来自DGS-Fabeln-1：聋人母语者讲述经典德国童话的德国手语视频片段（平均每个约10秒）。
来自DGS-Fabeln-1：每个片段对应的简化德语书面文本。
来自DGS-Fabeln-1-SE：每个片段在三个级别（负面/中性/正面）上的情感效价，通过基于LLM的自动文本分析估计得出。
来自DGS-Fabeln-1-SE：每个片段从MediaPipe提取的原始地标和混合形状动画数据。
来自DGS-Fabeln-1-SE：每个片段根据原始MediaPipe数据计算出的特征向量（包括均值、标准差、速度、加速度、地标间距离等）。

数据结构

数据集包含以下表格：

DGS-Fabeln-1-SE-Labels.csv：情感/效价标签，即预测的基准真值。该表包含四个LLM提取的标签及其通过多数投票进行的聚合。
- 表头：Story, id, text_original, Sentiments-GPT5, Multi-GPT5, Sentiments-Perplexity, Multi-Perplexity, Sentiments-Mistral, Multi-Mistral, Sentiments-GPTOSS20B, Multi-GPTOSS20B, Sentiments-Aggregated, Multi-Aggregated
- 列数：13
- 样本数：574
DGS-Fabeln-1-SE-MotionFeatures.csv：根据原始MediaPipe数据计算的片段级特征（例如，均值、标准差、速度、加速度、地标间距离等）。
- 表头：Story, id, 396x features
- 列数：398
- 样本数：571（原始DGS-Fabeln-1数据集中有三个缺失的视频）
7个 DGS-Fabeln-1-SE-MediaPipe-<tale>.csv 文件：对应七个童话故事（1-DHUDI, 2-FrauHolle, ...），每个文件包含直接从MediaPipe提取并插补了缺失帧的数据，每行一帧。
- 表头：Story, id, frame, 296 features
- 列数：299
- 样本数：对应视频中的帧数

文件列表

文件名	大小
DGS-Fabeln-1-SE-Labels.csv	103.7 kB
DGS-Fabeln-1-SE-MediaPipe-1-DHUDI.csv	67.2 MB
DGS-Fabeln-1-SE-MediaPipe-2-FrauHolle.csv	154.5 MB
DGS-Fabeln-1-SE-MediaPipe-3-DerWolf.csv	130.7 MB
DGS-Fabeln-1-SE-MediaPipe-4-Schneewittchen.csv	247.0 MB
DGS-Fabeln-1-SE-MediaPipe-5-HaenselUndGretel.csv	156.6 MB
DGS-Fabeln-1-SE-MediaPipe-6-Dornroeschen.csv	99.3 MB
DGS-Fabeln-1-SE-MediaPipe-7-BremerStadtmusikanten.csv	123.4 MB
DGS-Fabeln-1-SE-MotionFeatures.csv	4.2 MB
README.md	3.1 kB
总计	983.0 MB

关键词与主题

MeSH: Sentiment Analysis, Sign Language, Machine Learning

技术元数据

创建日期: 2026年4月15日
修改日期: 2026年4月15日

引用格式

Nunnari, F., Jain, S., & Gebhard, P. (2026). DGS-Fabeln-1-SE [Data set]. In Proceedings of the fifteenth biennial Language Resources and Evaluation Conference (LREC 2026) (v1.0.0). Fifteenth biennial Language Resources and Evaluation Conference (LREC 2026), Palma, Mallorca, Spain. Zenodo. https://doi.org/10.5281/zenodo.18879038

搜集汇总

数据集介绍

构建方式

在德国手语情感分析的研究背景下，DGS-Fabeln-1-SE数据集的构建采用了系统化的多模态处理流程。该数据集基于DGS-Fabeln-1平行语料库，其中包含七个德语童话的574个文本片段及其对应的德国手语视频。首先，利用四种大型语言模型对德语文本片段进行情感标注，通过多数投票机制确定每个片段的最终情感标签，确保了标注的一致性。随后，使用MediaPipe库从每个手语视频片段中提取面部和身体的运动特征，包括三维地标位置、混合形状以及动态特征如速度和加速度。最后，将这些特征与情感标签结合，形成包含517个有效片段的数据集，为后续的机器学习建模提供了结构化基础。

特点

DGS-Fabeln-1-SE数据集在德国手语情感分析领域展现出独特的多模态特性。该数据集不仅整合了文本与视频的双重信息，还通过自动化流程生成了高一致性的情感标签，其标注者间一致性达到0.781的Krippendorff's alpha系数。视频特征涵盖了面部表情和身体运动的丰富维度，包括眉毛、嘴巴的运动以及臀部、肘部和肩膀的动态变化，这些特征共同揭示了手语中情感传递的复杂机制。此外，数据集专注于童话领域，其叙事结构自然覆盖了从负面到正面的情感范围，为情感分析任务提供了高表达性的样本，有助于深入探索手语中情感与语法的交织关系。

使用方法

DGS-Fabeln-1-SE数据集为德国手语情感分析研究提供了实用的实验平台。研究人员可利用该数据集训练可解释的机器学习模型，例如基于XGBoost的分类器，以预测视频片段的情感效价。使用过程中，首先加载数据集中的视频特征和情感标签，随后进行特征选择和模型训练，通过交叉验证评估模型性能，平均平衡准确率可达0.631。该数据集还支持对重要特征的分析，帮助识别手语中情感表达的关键身体和面部线索。此外，数据集公开可用，附带的代码库便于复现和扩展实验，为手语语言学与计算技术的跨学科研究提供了有力支撑。

背景与挑战

背景概述

德国手语情感分析领域的研究长期面临数据稀缺与技术瓶颈的挑战。在此背景下，德国人工智能研究中心（DFKI）的研究团队于2026年发布了DGS-Fabeln-1-SE数据集，旨在通过计算模型自动推断德国手语视频片段的情感效价。该数据集基于DGS-Fabeln-1平行语料库构建，包含七个德语童话的574个文本段落及其对应的手语视频，核心研究问题聚焦于从手语的多模态特征中识别正面、中性或负面情感。这项工作的影响力在于首次系统性地结合大型语言模型与可解释机器学习，为手语情感计算提供了新的基准，推动了手语处理与情感计算领域的交叉融合。

当前挑战

该数据集致力于解决手语情感自动分析这一新兴领域的核心挑战，即如何从融合了语法与情感表达的手语视频中准确分离并识别情感效价。构建过程中的主要挑战体现在多个层面：在领域问题层面，手语情感的表达同时依赖于面部表情与身体动作，且与语法角色紧密交织，导致特征提取与模型解释极为复杂；在数据构建层面，缺乏可靠的人工标注基准，研究团队需依赖大型语言模型对文本进行自动化情感标注，但模型在童话文本上的泛化能力与标注一致性仍需验证；同时，视频特征提取需处理遮挡、运动模糊等技术难题，并需从高维动态数据中筛选出对情感判别最具贡献力的关键特征，以构建轻量可解释的预测模型。

常用场景

经典使用场景

在德国手语情感分析领域，DGS-Fabeln-1-SE数据集被广泛应用于构建和验证基于视频特征的情感识别模型。该数据集通过结合童话文本的情感标注与对应手语视频的运动特征，为研究者提供了一个多模态分析平台。经典使用场景包括训练可解释的机器学习模型，如XGBoost，以从面部表情、身体动作等特征中自动推断情感效价。这种场景特别适用于探索手语中情感表达的跨模态一致性，以及评估自动化工具在手语处理中的可行性。

解决学术问题

该数据集主要解决了手语情感分析中缺乏标准化数据资源的学术难题。传统上，手语情感研究依赖于耗时的人工标注，而DGS-Fabeln-1-SE通过利用大型语言模型自动生成文本情感标签，并结合MediaPipe提取视频运动特征，实现了高效的数据标注与特征工程。其意义在于首次系统性地量化了面部与身体动作在手语情感传达中的相对贡献，揭示了如臀部、肘部和肩部运动对情感区分的关键作用，从而推动了手语语言学与计算模型之间的交叉研究。

衍生相关工作

该数据集衍生了一系列经典研究工作，特别是在可解释手语情感分析领域。基于其多模态特征，研究者扩展了对于面部混合形状与身体运动关联性的探索，例如通过特征重要性分析揭示微笑、眉毛动作与肢体距离对情感预测的影响。后续工作可能包括融合更多视角视频以提升运动估计精度，或采用滑动时间窗口进行连续情感分析。这些衍生研究不仅深化了对手语情感表达机制的理解，也为开发轻量级实时情感识别系统奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集