Fallout New Vegas 对话情感标注数据集

Name: Fallout New Vegas 对话情感标注数据集
Creator: 赫尔辛基大学
Published: 2022-12-05 19:09:05
License: 暂无描述

arXiv2022-12-05 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/6990638

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由赫尔辛基大学创建，包含来自《辐射：新维加斯》游戏的53,000条对话，每条对话均预先标注了8种不同情感之一。数据集涵盖英语、西班牙语、德语、法语和意大利语五种语言，适用于多语言多标签情感分析。创建过程中使用了官方的Garden of Eden Creation Kit工具提取游戏对话，并进行了版权保护的随机化处理。该数据集主要用于解决情感分析领域的挑战，特别是在多语言环境下的情感识别问题。

This dataset was created by the University of Helsinki, containing 53,000 dialogues sourced from the video game *Fallout: New Vegas*. Each dialogue is pre-labeled with one of eight distinct emotions. The dataset covers five languages including English, Spanish, German, French and Italian, and is applicable for multilingual multi-label sentiment analysis. During its creation, the official Garden of Eden Creation Kit tool was used to extract in-game dialogues, with copyright-protected randomization processing applied. This dataset is primarily developed to address challenges in the field of sentiment analysis, particularly emotion recognition in multilingual environments.

提供机构：

赫尔辛基大学

创建时间：

2022-12-05

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，利用视频游戏作为语料库已成为一种创新数据采集途径。Fallout New Vegas 对话情感标注数据集的构建，依托游戏开发者预先标注的对话情感标签，涵盖愤怒、厌恶、恐惧、快乐、中性、痛苦、悲伤和惊讶八种情感类别。研究团队通过官方模组工具 Garden of Eden Creation Kit 从游戏二进制格式中提取对话文本，并依据文件名信息对齐英语、西班牙语、德语、法语和意大利语的多语言版本。尽管工具存在部分语言导出不完整的限制，团队仍通过正则表达式清理文本中的额外注释，最终形成包含超五万条对话的跨语言情感标注数据集。

特点

该数据集在情感分析领域展现出独特价值，其核心特点在于多语言对齐与细粒度情感标注的融合。数据集覆盖五种语言，每条对话均配有八种情感标签，突破了传统情感分析中二元分类的局限，为多标签情感识别提供了丰富样本。数据来源于专业游戏开发者的标注，确保了情感标签的准确性与一致性，同时游戏对话的叙事性与多样性为模型训练引入了新颖的文本领域。尽管部分语言数据量较小，但数据集的跨语言特性支持了多语言情感分析模型的迁移学习研究。

使用方法

该数据集适用于多语言多标签情感分析任务的模型训练与评估。研究人员可采用序列分类方法，利用 BERT 或 XLMRoBERTa 等预训练模型进行微调，以预测对话的情感类别。数据集已划分为训练集与测试集，其中英语、德语和意大利语数据主要用于训练，而西班牙语和法语数据则作为跨语言测试集，以验证模型的泛化能力。使用中需注意数据集的标签不均衡问题，可通过采样策略调整中性类别的样本数量。此外，数据集支持多语言与单语言模型的对比实验，为探索跨语言情感语义表示提供了实践基础。

背景与挑战

背景概述

在自然语言处理领域，情感分析长期受限于简化的二元情感标注体系，难以捕捉人类情感的复杂光谱。2022年，赫尔辛基大学与法国高等师范学院的研究团队开创性地从角色扮演游戏《辐射：新维加斯》中提取了多语言对话情感标注数据集。该数据集的核心价值在于其专业预标注的八种情感维度——愤怒、厌恶、恐惧、快乐、中性、痛苦、悲伤与惊讶，覆盖英语、西班牙语、德语、法语及意大利语五种语言。通过提取游戏中超过五万三千条对话文本，该研究首次将电子游戏语料库系统性地引入细粒度多标签情感分析任务，为跨语言情感计算模型提供了稀缺的领域适应性数据，推动了游戏语料在自然语言处理中的创新应用。

当前挑战

该数据集面临双重挑战：在领域问题层面，细粒度多标签情感分析本身即属自然语言处理中的难点，模型需超越传统积极-消极二元分类，精准识别八种微妙情感的交织与差异，而游戏对话特有的叙事语境与情感表达复杂性进一步加剧了分类难度。在构建过程中，技术障碍尤为突出：游戏数据存储于专用二进制格式，依赖官方模组工具GECK进行提取时遭遇严重系统缺陷，导致非英语语种数据提取过程频繁崩溃，造成西班牙语与法语数据量严重不足；同时为规避版权风险，数据集必须经过随机打乱处理，这在一定程度上影响了语境的连贯性分析。

常用场景

经典使用场景

在自然语言处理领域，情感分析任务常受限于标注数据的稀缺性与多样性不足。Fallout New Vegas对话情感标注数据集以其独特的游戏对话语料，为多语言、多标签情感分析提供了经典实验平台。该数据集包含英语、西班牙语、德语、法语和意大利语五种语言的对话文本，每条文本均标注了愤怒、厌恶、恐惧、快乐、中性、痛苦、悲伤和惊讶八种情感标签。研究者常利用该数据集训练和评估如BERT、XLMRoBERTa等预训练模型，探索跨语言情感迁移能力与细粒度情感分类性能，尤其在处理游戏领域特有的叙事性对话时展现出显著挑战性。

衍生相关工作

基于该数据集衍生的经典研究工作主要围绕多模态情感分析与跨领域迁移学习展开。部分研究尝试结合游戏音频数据，探索文本与语音特征融合的多模态情感分类方法，以捕捉语调对情感表达的补充信息。另有工作借鉴该数据集的构建思路，从《上古卷轴V：天际》等游戏中提取情感词典，拓展了游戏语料在自然语言处理中的应用范畴。在模型创新方面，研究者利用该数据集评估了RAkEL等多标签分类算法在游戏文本上的性能，并推动了针对领域适应性的预训练模型微调策略的优化。

数据集最近研究