mrzjy/Chinese_interactive_novels_3k
收藏中文互动小说结构化语料
概述
- 数据集名称: 中文互动小说结构化语料
- 数据集大小: 3534个结构化中文互动小说,总计约0.25B(gpt-3.5)tokens
- 数据来源: 从特定在线资源解析
- 数据状态: 未清洗
数据结构
-
Novel类:
book_title: 小说标题 (str)book_author: 小说作者 (str)book_tag: 小说标签 (list[str])book_intro: 小说简介 (str)collect: 收藏数 (int)popularity: 热度 (int)book_chapter: 小说章节列表 (list[Chapter])
-
Chapter类:
chapter_title: 章节标题 (str)content: 章节内容列表 (list[Content])
-
Content类:
content_tag: 内容标签 (str),可以是dialog、img或narrationrole: 角色 (str)content: 内容 (str)
示例片段
json { "book_title": "庞博文:你喜欢我吗", "book_author": "李李李李李李李李", "book_tag": [ "现代", "庞博文", "刘佳梁", "抖音网红", "马建博" ], "book_intro": "简介:意外爆火的新晋主播安然与抖音网红庞博文的相识相恋", "collect": 632, "popularity": 417220, "book_chapter": [ ... { "chapter_title": "喝多了", "content": [ ... { "content_tag": "dialog", "role": "庞博文", "content": "拜拜" }, { "content_tag": "dialog", "role": "安然", "content": "拜拜" }, { "content_tag": "narration", "role": "", "content": "安然跟粉丝唠了一会儿磕后,屏幕上又出现了另一个人的面孔" }, { "content_tag": "dialog", "role": "安然", "content": "你好呀" }, { "content_tag": "dialog", "role": "安然", "content": "王子" }, { "content_tag": "dialog", "role": "刘佳梁", "content": "晚上好啊" }, { "content_tag": "dialog", "role": "刘佳梁", "content": "怎么着来一局吗" }, { "content_tag": "dialog", "role": "安然", "content": "再叫两个人吧" }, ... ] }, ... ] }
限制
- 数据集未清洗,可能包含空值(解析失败)和内容噪音(如作者感谢或请求点赞和订阅)
- 并非所有作品都具有高质量,但可参考热度与收藏数作为质量指标




