HoK 多模态toy数据集

github2024-03-20 更新2024-05-31 收录

下载链接：

https://github.com/chg0901/Honor_of_Kings_Multi-modal_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这个多模态数据集包括来自手机游戏《王者荣耀》的图像、文本和音频，这是中国最流行的智能手机游戏之一。王者荣耀故事英雄与技能-toy.xlsx 包含每个英雄详细信息的主要文本数据。作为一个玩具数据集，我只上传了4个英雄的数据 “英雄Q版头像”、“英雄档案图片”和“英雄海报”是包含这些英雄的各种图像的文件夹。英雄语音和对应台词是包含每个英雄每种皮肤对应的语音（音频）和台词（文本）的文件夹。（有些皮肤没有对应的声音，使用默认皮肤的声音和台词。）

This multimodal dataset encompasses images, text, and audio sourced from *Honor of Kings*, one of the most prevalent mobile games in China. The core text dataset containing detailed information for each in-game hero is stored in the file `Honor of Kings Hero Stories and Skills-toy.xlsx`. As a toy dataset, only data for 4 heroes has been uploaded. Three dedicated folders — "Chibi Hero Avatars", "Hero Profile Images", and "Hero Posters" — host a variety of images for these 4 heroes. The folder titled "Hero Voice Lines and Corresponding Dialogues" stores the audio (voice clips) and text (dialogue lines) corresponding to each skin of every included hero. For skins that lack exclusive voice content, the voice lines and dialogues from the default skin are utilized as a substitute.

创建时间：

2024-02-29

原始信息汇总

王者荣耀多模态数据集概述

数据集来源

王者荣耀多模态数据集来源于兄弟项目Honor_of_Kings_Multi-modal_Dataset。

数据集内容

HoK_multi-modal_toy_data: 包含中英文文档，详细描述了数据集的内容和使用方法。
HoK_RolePlay: 包含角色扮演相关的数据，如妲己的图像、文本和语音数据。

数据集结构

英雄Q版头像
英雄档案图片
英雄海报
英雄皮肤
- 安琪拉
- 艾琳
- 阿古朵
- 阿轲
英雄语音和对应台词
- 安琪拉
- 艾琳
- 阿古朵
- 阿轲

数据集用途

用于训练和微调InternLM2模型，以创建王者荣耀领域的角色扮演聊天机器人——峡谷小狐仙。
结合ASR、RAG、TTS和数字人技术，实现语音输入、信息检索、语音输出和视频输出功能。

数据集生成

使用大模型生成自我认知数据集，包括自我介绍、背景关系、打招呼用词和主要功能介绍。
采用多轮对话训练格式，对InternLM2_chat_7b模型进行微调，优化对话生成能力。

数据集技术支持

ASR: 使用whisper模型进行语音识别。
TTS + 语音克隆: 使用GPT-SoVITS技术实现文本转语音和语音克隆。
数字人: 使用SadTalker技术实现视频输出。

数据集示例

自我认知数据集示例展示了如何结合英雄背景和故事生成对话内容。
微调数据集示例展示了多轮对话数据的生成和应用。

数据集未来计划

计划使用InternLM和RAG技术进行数据处理和应用扩展。

结论

王者荣耀多模态数据集是一个综合性的数据集，用于支持王者荣耀领域的角色扮演聊天机器人开发，结合了多种先进技术，旨在提供丰富的交互体验和深入的游戏知识。

搜集汇总

数据集介绍

构建方式

HoK多模态toy数据集的构建基于王者荣耀这一广受欢迎的智能手机游戏，通过多模态RAG项目进行数据收集与生成。数据来源包括游戏中的英雄技能、背景故事、台词等多维度信息，并结合ASR、TTS、数字人等技术进行数据增强。数据生成过程中，采用了COSTAR框架制作Prompt，利用多个大模型生成对话数据，确保对话风格的多样性和趣味性。微调数据集则通过Xtuner工具对InternLM2_chat_7b模型进行QLoRa微调，优化了模型的对话生成能力。

使用方法

HoK多模态toy数据集的使用方法较为灵活，用户可以通过克隆项目仓库并安装相关环境来启动Web UI进行交互。数据集支持两种对话模式：Chatty_DaJi和Lively_DaJi，分别提供基础的文本对话和结合ASR、TTS、数字人的多模态交互体验。用户可以通过语音输入或文本输入与虚拟角色进行互动，获取游戏相关的知识查询或角色扮演的对话体验。此外，数据集还支持RAG技术，用户可以通过关键词触发检索增强生成，获取更精准的游戏信息。

背景与挑战

背景概述

HoK多模态toy数据集是基于中国热门手机游戏《王者荣耀》构建的多模态数据集，由松龄后裔团队于2024年创建。该数据集旨在支持多模态角色扮演游戏助手“峡谷小狐仙”的开发，结合了语音识别（ASR）、检索增强生成（RAG）、文本转语音（TTS）及数字人技术。数据集的核心研究问题在于如何通过多模态技术实现游戏角色的智能交互，提升玩家的游戏体验。该数据集在2024浦源大模型系列挑战赛中获得三等奖，展示了其在多模态交互领域的创新性和影响力。

当前挑战

HoK多模态toy数据集在构建和应用过程中面临多重挑战。首先，数据集需要解决多模态数据的融合问题，包括文本、图像、语音等多种模态的协同处理，以确保角色扮演助手的自然交互。其次，数据集的构建过程中，如何从《王者荣耀》中提取并整合大量游戏角色的背景故事、技能信息及语音数据，是一个复杂且耗时的任务。此外，模型的微调和优化，尤其是在多轮对话生成和语音克隆方面，需要克服技术难题，以确保生成的对话和语音输出符合角色的性格和语气。最后，如何在有限的算力资源下高效训练和部署多模态模型，也是项目面临的重要挑战。

常用场景

经典使用场景

HoK多模态toy数据集在游戏领域的多模态研究中具有重要应用，尤其是在角色扮演游戏助手的开发中。该数据集通过整合王者荣耀游戏中的英雄角色、技能、背景故事等多模态信息，为构建智能对话系统提供了丰富的数据支持。经典使用场景包括基于该数据集开发的‘峡谷小狐仙’角色扮演助手，能够模拟游戏角色妲己的语音、行为和对话风格，为用户提供游戏知识查询和角色扮演互动。

解决学术问题

HoK多模态toy数据集解决了多模态数据融合与智能对话系统开发中的关键问题。通过整合文本、图像、语音等多种模态的数据，该数据集为研究者提供了多模态信息处理的实验平台，推动了多模态检索增强生成（RAG）技术的发展。此外，该数据集还为大模型微调（SFT）和语音克隆（TTS）等技术的应用提供了实践场景，显著提升了智能对话系统的个性化和知识性输出能力。

实际应用

在实际应用中，HoK多模态toy数据集被广泛用于开发游戏领域的智能助手和虚拟角色。例如，‘峡谷小狐仙’助手不仅能够回答用户关于王者荣耀游戏的各种问题，还能通过语音克隆和数字人技术模拟游戏角色的语音和形象，提供沉浸式的互动体验。该数据集的应用还扩展到了游戏攻略推荐、对局策略分析等领域，为玩家提供了更加智能化的游戏辅助工具。

数据集最近研究