alpindale/visual-novels

Name: alpindale/visual-novels
Creator: alpindale
Published: 2023-06-14 14:44:30
License: 暂无描述

Hugging Face2023-06-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alpindale/visual-novels

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含解析后的视觉小说脚本，用于训练语言模型。数据集由大约6000万个解析后的脚本标记组成。数据集结构包括对话行、动作和叙述，对话行格式为说话者名称后跟冒号和引号内的对话内容，动作和叙述通常用星号括起来。数据集内容包括解析后的文本文件、VNDB目录和未解析的存档文件。该数据集可用于训练语言模型，特别是自然语言处理和文本生成任务。

This dataset comprises parsed visual novel scripts intended for language model training. It contains approximately 60 million parsed script tokens. The dataset structure includes dialogue lines, actions and narration. Dialogue lines follow the format of speaker name followed by a colon and dialogue content enclosed in quotation marks, while actions and narration are typically wrapped in asterisks. The dataset content includes parsed text files, VNDB directories and unparsed archive files. This dataset can be used for training language models, especially for natural language processing and text generation tasks.

提供机构：

alpindale

原始信息汇总

Visual Novel Dataset 概述

数据集基本信息

许可协议：Apache-2.0
任务类别：
- 对话式
- 文本生成
语言：英语
数据集名称：Visual Novels

数据集描述

内容：包含约6000万条解析过的视觉小说脚本，用于训练语言模型。
结构：
- 对话行：格式为说话者名称后跟冒号，对话内容用引号括起来。
- 动作和叙述：通常用星号括起来，描述角色动作、背景设置或其他叙述元素。

数据集内容

visual-novels.txt：包含所有解析过的视觉小说脚本，每个条目之间用特定字符串分隔。
VNDB/：包含.json文件，记录了对应视觉小说角色的VNDB ID。
Archives/：
- visual-novels-parsed.tar.zst：包含解析过的视觉小说脚本，每个脚本单独存为一个文本文件。
- visual-novels-unparsed.tar.zst：包含所有未解析的视觉小说脚本及原始脚本。

使用目的

用于训练语言模型，特别是在自然语言处理和文本生成任务中，通过解析的视觉小说脚本训练模型理解和生成连贯的对话。

贡献者

数据集由PygmalionAI数据处理团队收集和解析。

注意事项

数据集包含的视觉小说脚本主要为版权内容，使用时应遵守版权法和相关许可限制。

搜集汇总

数据集介绍

构建方式

在视觉小说这一独特叙事体裁的背景下，该数据集的构建体现了对非结构化文本资源的系统性整理。其核心内容源于对大量原始视觉小说脚本的解析与汇编，通过自动化处理流程，将包含对话、动作描述及旁白等元素的原始文本转化为结构化格式。构建过程涉及将分散的脚本文件进行拼接与标准化，形成统一的纯文本文件，同时保留了原始未解析的脚本档案，为后续研究提供了完整的原始资料基础。

特点

该数据集以其丰富的对话交互与叙事结构为显著特征，蕴含约六千万标记的文本规模，为语言模型训练提供了充足的语料。其结构设计精准捕捉了视觉小说中角色对话与叙事描写的典型模式，例如对话行采用“角色名："对话内容"”的格式，而动作与旁白则常以星号标注。数据集不仅提供了整合后的单一文本文件，还包含按作品分离的解析脚本及原始未处理文件，这种多层次的数据组织方式兼顾了使用的便捷性与研究的深度需求。

使用方法

该数据集主要服务于自然语言处理与文本生成领域的研究与应用。使用者可加载整合后的文本文件，直接用于训练面向对话生成或叙事理解的语言模型。通过解析后的结构化对话与动作描述，模型能够学习角色互动与情节推进的连贯模式。对于希望进行更细致分析的研究者，可进一步利用按作品分离的脚本文件或原始未解析档案，开展针对特定叙事风格、角色关系或语言特征的深入分析，从而拓展其在创造性写作辅助、交互式叙事系统等方向的应用潜力。

背景与挑战

背景概述

在自然语言处理领域，对话系统与文本生成的研究持续深化，对高质量、结构化的叙事性文本数据需求日益增长。Visual Novel Dataset由PygmalionAI数据处理团队于近年构建，汇集了约六千万标记的视觉小说解析脚本，旨在为语言模型训练提供丰富的对话与叙事语料。该数据集聚焦于视觉小说特有的对话结构、角色互动及情节叙述，其核心研究问题在于如何利用此类多轮对话与描述性文本提升模型在开放域对话生成和故事连贯性理解方面的能力，对推进叙事智能和交互式人工智能的发展具有显著影响力。

当前挑战

该数据集致力于解决开放域对话生成与叙事连贯性建模的挑战，视觉小说文本兼具对话轮次、角色情感表达及复杂情节推进，要求模型不仅能捕捉对话的即时性，还需维持长期叙事逻辑，这对现有语言模型的上下文理解与生成一致性构成了严峻考验。在构建过程中，团队面临数据来源异构性带来的解析难题，不同视觉小说的文本格式差异显著，如对话引号使用、动作描述符号的不统一，需设计自适应解析策略以确保数据质量与结构一致性；同时，版权与知识产权问题亦为数据合法收集与共享增添了复杂层，需在合规框架下平衡研究需求与法律约束。

常用场景

经典使用场景

在自然语言处理领域，视觉小说数据集以其丰富的对话结构和叙事元素，为语言模型的训练提供了独特资源。该数据集常被用于训练生成式对话模型，通过解析约6000万词元的视觉小说脚本，模型能够学习角色对话的连贯性、情感表达以及叙事逻辑，从而提升在开放域对话生成任务中的表现。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，例如PygmalionAI团队开发的对话模型，这些工作专注于利用视觉小说数据增强模型的角色扮演能力和叙事生成质量。相关研究进一步探索了多模态叙事生成和情感感知对话系统，推动了生成式人工智能在创意内容领域的应用。

数据集最近研究