Video Game Dialogue Corpus

github2024-01-03 更新2024-05-31 收录

下载链接：

https://github.com/seannyD/VideoGameDialogueCorpusPublic

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含视频游戏对话的公共语料库，用于研究视频游戏对话中的语言使用。数据集可以通过运行仓库中的Python脚本获取和处理。

This is a public corpus containing video game dialogues, designed for researching language usage in video game conversations. The dataset can be obtained and processed by running the Python scripts provided in the repository.

创建时间：

2022-11-22

原始信息汇总

Video Game Dialogue Corpus 概述

数据集描述

数据内容

数据结构: 数据集包含每个游戏系列的文件夹，每个游戏系列下有各个游戏的文件夹。
文件内容:
- meta.json: 包含游戏的详细元数据，如游戏名称、系列、出版年份、来源、解析器参数等。
- scraper.py: 用于下载文件并存储在 raw 文件夹中的Python脚本。
- raw 文件夹: 用于临时存储下载的数据，不包含在GitHub仓库中。
- data.json: 包含解析后的对话数据。
- characters.txt: 包含所有独特角色的简单列表。
- stats.csv: 包含游戏整体及每个组的统计数据。

对话数据格式

JSON格式: 对话存储为JSON格式，其中 "text" 字段是一个对话行的有序列表，每行由角色名和对话内容组成。
特殊键:
- "ACTION": 用于描述非对话的游戏动作。
- "CHOICE": 用于表示玩家有对话选项的点，其值是一个可能对话序列的列表。

元数据详细信息

元数据字段:
- "game": 游戏全名。
- "series": 系列名称。
- "year": 出版年份。
- "source": 原始脚本的网络来源。
- "sourceFeatures": 来源包含的内容，如完整性、对话顺序等。
- "parserParameters": 解析器参数，包括解析器名称和文件类型。
- "mainPlayerCharacters": 主要可玩角色列表。
- "characterGroups": 角色分组信息。
- "aliases": 角色别名映射，用于纠正和统一角色对话。

错误检查

检查流程: 包括真阳性检查（确认源中的行是否在游戏中）和假阳性检查（确认源中的行是否不在游戏中）。
结果记录: 检查结果应添加到元数据中，详细记录检查的次数和发现的错误。

数据获取与处理

获取数据

步骤:
1. 安装Python及相关包。
2. 下载视频游戏对话语料库仓库。
3. 运行 buildCorpus.sh 脚本以收集所有游戏数据。

数据处理

脚本:
- parseRawData.py: 用于解析单个游戏的原始数据。
- getStatistics.py: 用于计算和编译所有游戏的统计数据。
- getCharacterInfo.py: 用于自动识别角色属性。

解析器模块

功能: 包含用于不同源类型的解析器模块，每个解析器包含 parseFile() 函数，用于解析文件并返回解析后的数据。

搜集汇总

数据集介绍

构建方式

Video Game Dialogue Corpus的构建过程主要依赖于自动化脚本和手动校验的结合。首先，通过Python脚本从多个游戏资源网站抓取原始对话数据，并将其存储在本地。随后，使用解析脚本将原始数据转换为统一的JSON格式，确保对话内容的结构化和可读性。为了确保数据的准确性，研究者还通过视频比对和随机抽样检查，验证了对话内容的真实性和转录的准确性。这一过程不仅涵盖了对话文本，还包括了游戏中的选择分支和动作描述，使得数据集能够全面反映游戏对话的复杂性。

使用方法

使用Video Game Dialogue Corpus时，用户首先需要安装Python环境及相关的依赖库，如Beautiful Soup、lxml等。随后，通过运行`buildCorpus.sh`脚本，用户可以自动下载并解析所有游戏的对话数据。若仅需获取特定游戏的对话，可以运行相应游戏文件夹中的`scraper.py`脚本，并通过`parseRawData.py`脚本进行解析。解析后的数据以JSON格式存储在`data.json`文件中，用户可以使用文本编辑器或语料库分析工具进行查看和分析。此外，数据集还提供了统计脚本`getStatistics.py`，用于生成游戏的对话统计信息，便于研究者进行定量分析。

背景与挑战

背景概述

Video Game Dialogue Corpus 是由 Stephanie Rennick 和 Seán G. Roberts 等研究人员于2023年创建的一个公开语料库，旨在为视频游戏对话的语言使用研究提供数据支持。该数据集涵盖了多个游戏系列，如《最终幻想》等，通过将游戏数据转换为统一的对话脚本格式，为研究者提供了丰富的语言分析素材。其核心研究问题包括视频游戏对话中的性别偏见、角色互动模式等，相关研究成果已发表在《Royal Society Open Science》等权威期刊上，对语言学、游戏研究等领域产生了深远影响。

当前挑战

Video Game Dialogue Corpus 在构建和应用过程中面临多重挑战。首先，视频游戏对话的多样性和复杂性使得数据采集和标准化处理变得尤为困难，尤其是在处理对话树、玩家选择等非线性结构时。其次，数据源的多样性和不完整性增加了数据清洗和验证的难度，部分游戏脚本可能仅包含部分对话或存在转录错误。此外，如何准确识别和统一角色别名、处理多角色同时对话等特殊情况，也是构建过程中需要解决的技术难题。这些挑战不仅影响了数据的准确性和完整性，也对后续的语言分析和研究提出了更高的要求。

常用场景

经典使用场景

Video Game Dialogue Corpus 数据集在语言学和游戏研究领域具有广泛的应用，尤其是在分析视频游戏对话的语言特征和结构时。研究者可以通过该数据集深入探讨游戏对话中的语言风格、角色互动模式以及对话树的设计。该数据集为语言学家提供了丰富的语料库，用于研究自然语言处理中的对话生成和理解问题。

解决学术问题

该数据集解决了视频游戏对话研究中的多个学术问题，特别是在性别偏见、角色对话分配和对话结构分析方面。通过提供标准化的对话脚本格式，研究者能够系统地分析游戏中的语言使用情况，揭示潜在的性别偏见和角色刻板印象。此外，该数据集还为对话生成模型的训练和评估提供了高质量的语料，推动了自然语言处理技术的发展。

实际应用

在实际应用中，Video Game Dialogue Corpus 数据集被广泛用于游戏开发中的对话设计和测试。开发者可以通过分析该数据集中的对话结构，优化游戏中的角色互动和叙事设计。此外，该数据集还被用于教育领域，帮助学生和研究者理解游戏中的语言使用和叙事技巧，提升游戏设计和语言分析的教学效果。

数据集最近研究