five

honkai_impact_3rd_chinese_dialogue_corpus

收藏
Hugging Face2024-08-15 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/mrzjy/honkai_impact_3rd_chinese_dialogue_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集包含92,421句崩坏3游戏剧情对白(带有角色标签)和旁白,涵盖从“主线1黄昏、少女、战舰”到“主线第二部03间章:一个梦游者的苦痛”的多个章节。数据来源于honkai_impact_3rd_game_playthrough视频,通过OCR文字识别、VLM结构化解析和后处理得到。未识别的角色标记为<unknown>,存在一定的识别误差,但整体质量较高。数据集提供了对话示例和角色发言统计。

This dataset contains 92,421 lines of in-game dialogue and narration from *Honkai Impact 3rd*, annotated with character labels, spanning multiple main chapters ranging from "Main Chapter 1: Dusk, Maiden, Battleship" to "Main Chapter 2 Part 03 Interlude: The Agony of a Sleepwalker". The dataset is sourced from honkai_impact_3rd_game_playthrough videos, and was generated through optical character recognition (OCR), structured parsing with vision-language models (VLMs), and post-processing. Unrecognized characters are marked as <unknown>. While minor recognition errors exist in the dataset, its overall quality remains high. Additionally, the dataset provides dialogue examples and character speech statistics.
创建时间:
2024-08-15
原始信息汇总

崩坏三游戏剧情语料

概述

  • 许可证: Apache-2.0
  • 语言: 中文
  • 标签: 游戏, 崩坏3, 米哈游, 对话, 旁白
  • 数据量: 10K<n<100K
  • 内容: 总计 92,421 句剧情对白(带有角色标签)+旁白,涵盖从“主线1黄昏、少女、战舰”到“主线第二部03间章:一个梦游者的苦痛”的剧情。

数据来源

  • 数据集通过 honkai_impact_3rd_game_playthrough 视频数据集,经过 OCR 文字识别、VLM 结构化解析和后处理 pipeline 得到。
  • 未识别出的角色标记为 "<unknown>"。

数据质量

  • 由于通过 AI pipeline,存在识别错误等误差,但数据质量仍然较高。

示例

json {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-22", "type": "dialogue", "role": "幽兰黛尔", "content": "倒也不能掉以轻心。对于将世界泡重新连回「虚数的末梢」这一行为来说,真正的关键在于锚点本身的稳定性。这和空间上的远近不完全是一回事。"} {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-23", "type": "dialogue", "role": "琪亚娜", "content": "……锚点?那是什么?"} {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-24", "type": "dialogue", "role": "幽兰黛尔", "content": "「锚点」是允许世界泡连接到其他空间的一种反演基点。举个例子的话……"} {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-25", "type": "dialogue", "role": "幽兰黛尔", "content": "就像我体内的世界泡需要锚定在我自己的身上,而你的记忆空间也会固定在你的律者核心上。"} {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-26", "type": "dialogue", "role": "幽兰黛尔", "content": "那边的梅博士也一定需要现实世界的某样东西来做到这一点。"} {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-27", "type": "dialogue", "role": "幽兰黛尔", "content": "难道就是那座桥?"} {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-28", "type": "dialogue", "role": "琪亚娜", "content": "……?"} {"chapter": "主线32世界的止境-03", "chapter_id": 138, "utter_id": "138-29", "type": "dialogue", "role": "琪亚娜", "content": "博士完全没有提到这一点啊。"}

主要角色对话统计

role count

芽衣 4859 希儿 3942 琪亚娜 3189 符华 2564 布洛妮娅 2458 德丽莎 2091 松雀 1970 爱莉希雅 1669 幽兰黛尔 1537 薇塔 1246 凯文 1155 苏莎娜 1144 识之律者 1133 时雨绮罗 1113 爱因斯坦 1013 格蕾修 1009 奥托 999 普罗米修斯 981 特斯拉 959 渡鸦 949 希娜狄雅 887 科拉莉 860 丽塔 779 米丝忒琳 689 华 598 阿波尼亚 571 灰蛇 562 ??? 537 维尔薇 520 苏 507 白及 493 帕朵菲莉丝 488 瑟莉姆 485 梅比乌斯 472 梅 446 姬子 441 人偶 433 李素裳 427 穷困潦倒乐乐酱 421 侵蚀之律者 418 赫丽娅 398 莫里亚蒂 386 薛定谔 385 樱 370 大魔术师维尔薇 360 萝莎莉娅 331 长光 302 羽兔 293

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于《崩坏3》游戏的剧情视频,通过AI pipeline从视频中提取结构化文本。首先,使用BBDown工具从Bilibili下载游戏剧情视频,随后通过视频帧分割技术每1秒提取一帧图像。接着,利用Paddle-OCR进行文本检测,并结合MiniCPM-V-2_6模型进行视觉语言模型(VLM)解析,生成结构化JSON数据。最后,通过规则后处理步骤,包括去噪、去重和归并中间帧信息,确保数据的准确性和完整性。
特点
该数据集包含92,421句剧情对白和旁白,涵盖了《崩坏3》从主线1到主线第二部03间章的剧情内容。数据集中的每一条记录都标注了章节、角色和内容类型(对话或旁白),并提供了详细的角色标签。尽管通过AI pipeline提取的数据可能存在少量识别误差,但整体数据质量较高,适用于自然语言处理和游戏剧情分析等任务。
使用方法
用户可以通过Git克隆数据集到本地路径,并使用`load_from_disk`函数加载数据集。加载后的数据可以转换为Pandas DataFrame进行进一步分析。数据集中的每一行包含章节ID、角色、内容类型和具体内容,用户可以根据章节ID进行分组,查看特定章节的剧情对话和旁白。此外,数据集还提供了详细的VLM提示模板,帮助用户理解如何从图像和OCR结果中提取结构化信息。
背景与挑战
背景概述
《崩坏三游戏剧情语料》数据集由mrzjy团队于近期创建,旨在为自然语言处理领域的研究者提供丰富的游戏剧情对话资源。该数据集源自《崩坏3》游戏的主线剧情,涵盖了从“主线1黄昏、少女、战舰”到“主线第二部03间章:一个梦游者的苦痛”的92,421句对白与旁白。通过AI pipeline,团队从BiliBili平台的游戏剧情视频中提取并结构化处理了这些文本数据。该数据集的发布为游戏剧情分析、角色对话生成以及多模态学习等研究提供了重要支持,尤其在中文游戏文本处理领域具有显著影响力。
当前挑战
该数据集在构建过程中面临多重挑战。首先,游戏剧情中的对白通常以逐字动画形式呈现,导致视频帧中存在大量中间帧和重复帧,这增加了文本提取的复杂性。其次,OCR技术在识别游戏画面中的斜体文字时,准确率较低,容易产生错误识别。此外,角色名称的不一致性(如“德丽莎”与“德丽莎女士”)以及上下文信息的缺失,进一步增加了数据清洗和结构化的难度。尽管通过VLM模型和后处理规则进行了优化,但数据集中仍可能存在少量噪声和误差,这对后续研究的准确性提出了挑战。
常用场景
经典使用场景
《崩坏三游戏剧情语料》数据集在自然语言处理领域中被广泛应用于对话系统的研究与开发。通过对游戏中的剧情对白和旁白进行结构化处理,该数据集为研究者提供了丰富的语料资源,用于训练和评估对话生成模型。特别是在角色扮演类游戏(RPG)中,对话系统的自然度和连贯性对玩家体验至关重要,该数据集为相关研究提供了宝贵的实验数据。
解决学术问题
该数据集解决了游戏对话生成中的多个学术问题,尤其是在多角色对话场景下的上下文理解和角色一致性方面。通过提供带有角色标签的对话内容,研究者可以更好地模拟游戏中的多角色互动,提升对话系统的表现力。此外,数据集中的旁白内容也为叙事生成模型的研究提供了重要支持,帮助模型更好地理解故事背景和情节发展。
衍生相关工作
基于该数据集,研究者们已经开展了多项经典工作。例如,一些研究利用该数据集开发了基于深度学习的对话生成模型,显著提升了游戏对话的自然度和多样性。此外,还有研究结合该数据集中的旁白内容,开发了叙事生成算法,能够自动生成符合游戏背景的故事情节。这些工作不仅推动了游戏AI的发展,也为自然语言处理领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作