game-novel-snac
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/minato-ryan/game-novel-snac
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置都有不同的特征、分割和大小。特征通常包括文本、音频ID、索引和ID序列。分割通常包括一个训练集,具有特定的字节和示例数量。还提供了每个数据集配置的下载大小和数据集大小。
创建时间:
2025-11-19
原始信息汇总
数据集概述
基本信息
- 数据集名称: game-novel-snac
- 存储位置: https://huggingface.co/datasets/minato-ryan/game-novel-snac
- 数据格式: 多配置数据集
数据结构
通用特征
所有配置包含相同特征字段:
- text: 文本内容(字符串类型)
- audio_ID: 音频标识符(字符串类型)
- idx: 索引编号(整型)
- ids: 序列标识(整型序列)
数据划分
所有配置仅包含训练集(train split)
配置详情
0verflow系列
- 0verflow_Shiny_Days
- 样本数量: 37,616
- 数据集大小: 73.2 MB
- 下载大小: 21.6 MB
AKABEiSOFT3系列
包含8个主要配置:
- CharaBration_Otome_wa_Koi_shite_Charabureru: 15,376样本(66.9 MB)
- Dekinai_Watashi_ga_Kurikaesu: 16,222样本(45.3 MB)
- Hakata_DYINGZOMBIES_Second_Chance_for_BEAUTIFUL_LIVE: 7,875样本(28.6 MB)
- Hataraku_Otona_no_Ren_ai_Jijou: 19,500样本(59.2 MB)
- Hataraku_Otona_no_Ren_ai_Jijou_2: 15,302样本(50.4 MB)
- Maho_x_Roba_Witches_Spiritual_Home: 22,225样本(80.9 MB)
- Ryuukishi_Bloody_Saga: 16,159样本(41.3 MB)
ALcot系列
包含6个主要配置:
- Clover_Day_s: 25,840样本(78.2 MB)
- Onigokko: 18,762样本(59.7 MB)
- Onigokko_Fandisc: 6,971样本(24.9 MB)
- Sakura_iro_Dreamer: 107样本(269 KB)
- Shogun_sama_wa_Otoshigoro: 16,559样本(56.9 MB)
- Shogun_sama_wa_Otoshigoro_Fandisc_Gosanke_Da_yo_Zen_in_Shuugou: 7,627样本(28.5 MB)
- Yomegami_My_Sweet_Goddess: 19,213样本(56.1 MB)
ASa_Project系列
包含13个配置,涵盖主要作品和迷你后传:
- Futamata_Ren_ai: 10,885样本(41.5 MB)
- Karigurashi_Ren_ai: 13,363样本(43.4 MB)
- Koibana_Ren_ai: 11,921样本(43.2 MB)
- Puramai_Wars: 14,153样本(45.3 MB)
- Ren_ai_Karichaimashita: 14,360样本(51.8 MB)
- Ren_ai_x_Royale: 11,372样本(52.3 MB)
- Suki_to_Suki_to_de_Sankaku_Ren_ai: 13,897样本(40.7 MB)
AUGUST系列
包含3个配置:
- Aiyoku_no_Eustia: 36,296样本(72.9 MB)
- Sen_no_Hatou_Tsukisome_no_Kouki: 27,048样本(60.2 MB)
- Sen_no_Hatou_Tsukisome_no_Kouki_Hana_Akari: 10,611样本(30.3 MB)
其他开发商
- AXL_Curio_Dealer: 11,652样本(40.8 MB)
- Aino_Links_Sousaku_Kanojo_no_Ren_ai_Koushiki: 15,071样本(46.1 MB)
- Alice_Soft系列: 4个配置,样本量16,633-21,687
- Applique系列: 2个配置,样本量11,054-17,040
- Archive_Unravel_trigger: 19,857样本(64.8 MB)
- Astronauts_Sirius_Enjou_Gakuen_2_Shitenshi_tachi_no_Hanazono: 10,500样本(37.7 MB)
Azarashi_Soft系列
包含16个配置,涵盖多个作品系列:
- Amakano系列: 5个配置,样本量8,436-20,591
- Amanatsu系列: 2个配置,样本量9,550-12,973
- Aibeya系列: 2个配置,样本量2,092-2,372
- Aikagi系列: 2个配置,样本量2,042-3,028
数据规模
- 总配置数量: 70+个独立游戏配置
- 样本规模: 从107个到37,616个样本不等
- 数据大小: 多数配置在20-80MB范围内
- 内容类型: 视觉小说游戏文本数据
搜集汇总
数据集介绍

构建方式
在视觉小说与游戏文本数据领域,该数据集通过系统化采集多款知名厂商作品构建而成。其整合了来自0verflow、AKABEiSOFT3、ALcot等开发商的视觉小说文本资源,采用统一的结构化处理流程,将原始游戏脚本转化为包含文本内容、音频标识符、序列编号及索引序列的标准数据单元。每个子数据集均通过严格的格式校验与去重处理,确保数据质量与一致性,最终形成包含数万条文本样本的标准化语料库。
特点
该数据集展现出显著的领域专属性与结构多样性特征。其文本内容涵盖恋爱模拟、奇幻冒险、校园生活等多重叙事类型,呈现丰富的语言风格与情感表达。数据架构采用四维特征设计,文本字段保留原始对话与叙述内容,音频标识符建立跨模态关联,序列编号与索引序列则构建了文本层级关系。各子集规模呈现梯度分布,从数百到数万样本量不等,为研究不同规模下的语言模型表现提供理想条件。
使用方法
针对自然语言处理研究需求,该数据集支持多种应用范式。研究者可通过标准数据加载接口调用特定子集,利用文本字段进行对话系统训练、情感分析建模或叙事结构解析。音频标识符为跨模态研究提供锚点,序列索引支持篇章级语言建模任务。建议根据研究目标选择适当规模的子数据集,对于小样本学习可选用千级样本子集,大规模预训练则可整合多个子集构建百万级语料。
背景与挑战
背景概述
在视觉小说与游戏文本分析领域,game-novel-snac数据集作为多模态语言资源库应运而生。该数据集由游戏开发社区与自然语言处理研究者共同构建,聚焦于日式视觉小说中的对话文本与音频标识符的关联性研究。其核心价值在于整合了来自AKABEiSOFT、ALcot等知名游戏厂商的经典作品文本,通过结构化存储方式为语言模型训练提供高质量语料。该资源显著推动了游戏叙事理解、角色对话生成等研究方向的发展,成为跨媒体内容分析的重要基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,视觉小说文本存在多角色对话交织、情感表达隐晦等特性,对语义理解模型的情节连贯性捕捉与角色意图识别提出更高要求。构建过程中需克服原始数据格式异构性难题,包括不同游戏引擎的脚本封装差异、日语特殊表达的文化语境解析,以及文本与音频时序对齐的技术瓶颈。此外,版权许可的合规性处理与数据清洗的质量控制亦构成重要制约因素。
常用场景
经典使用场景
在视觉小说与游戏文本分析领域,该数据集通过整合多款日本视觉小说的文本与音频标识符,为自然语言处理模型提供了丰富的训练语料。其典型应用场景包括对话系统生成、情感分析模型构建以及角色互动模式研究,这些场景均依赖于数据集对游戏叙事结构和语言风格的深度覆盖。
实际应用
在实际应用中,该数据集被广泛用于智能游戏助手开发、个性化剧情推荐系统构建,以及虚拟角色对话引擎的优化。其多游戏文本的聚合特性为商业化视觉小说平台提供了语言模型微调的基础,显著增强了用户交互体验的流畅性与沉浸感。
衍生相关工作
基于该数据集衍生的经典研究包括跨游戏叙事模式挖掘、多模态对话生成框架设计,以及视觉小说风格迁移模型的开发。这些工作通过结合深度学习与叙事理论,进一步拓展了游戏文本在人工智能创作与自适应叙事系统中的创新应用。
以上内容由遇见数据集搜集并总结生成



