five

p1atdev/novecomi-novel-metadata

收藏
Hugging Face2023-12-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/p1atdev/novecomi-novel-metadata
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: url dtype: string - name: title dtype: string - name: author dtype: string - name: short_description dtype: string - name: description dtype: string - name: banner dtype: string - name: episodes list: - name: link dtype: string - name: title dtype: string splits: - name: train num_bytes: 78059 num_examples: 24 download_size: 41444 dataset_size: 78059 configs: - config_name: default data_files: - split: train path: data/train-* license: cc0-1.0 language: - ja pretty_name: Novecomi Novel Metadata size_categories: - n<1K --- # novecomi-novel-metadata https://dengekibunko.jp/novecomi/novel/ からスクレイピング。 (本文なし)

dataset_info: features: - 字段名: id 数据类型: 字符串 - 字段名: url 数据类型: 字符串 - 字段名: title 数据类型: 字符串 - 字段名: author 数据类型: 字符串 - 字段名: short_description 数据类型: 字符串 - 字段名: description 数据类型: 字符串 - 字段名: banner 数据类型: 字符串 - 字段名: episodes 数据类型: 列表 列表子字段: - 字段名: link 数据类型: 字符串 - 字段名: title 数据类型: 字符串 splits: - 拆分名称: train 字节数: 78059 示例数量: 24 download_size: 41444 dataset_size: 78059 configs: - 配置名称: default 数据文件: - 拆分集: train 文件路径: data/train-* license: CC0 1.0 language: - 日语 pretty_name: Novecomi小说元数据 (Novecomi Novel Metadata) size_categories: - 样本量小于1000(n<1K) # novecomi-novel-metadata 本数据集通过爬取https://dengekibunko.jp/novecomi/novel/ 所得,不含正文内容。
提供机构:
p1atdev
原始信息汇总

数据集概述

数据集信息

  • 特征列表:
    • id: 字符串类型
    • url: 字符串类型
    • title: 字符串类型
    • author: 字符串类型
    • short_description: 字符串类型
    • description: 字符串类型
    • banner: 字符串类型
    • episodes: 列表类型,包含以下子特征:
      • link: 字符串类型
      • title: 字符串类型
  • 数据分割:
    • train: 包含78059字节,24个样本
  • 下载大小: 41444字节
  • 数据集大小: 78059字节
  • 配置:
    • default: 数据文件路径为 data/train-*
  • 许可证: cc0-1.0
  • 语言: 日语
  • 友好名称: Novecomi Novel Metadata
  • 大小类别: n<1K
搜集汇总
数据集介绍
main_image_url
构建方式
在数字出版领域,网络小说平台的元数据为内容分析提供了重要基础。该数据集通过自动化脚本从日本电击文库旗下的Novecomi小说网站系统性地抓取公开信息,涵盖了作品标识符、标题、作者、简介及章节链接等结构化字段。构建过程聚焦于元数据提取,未包含小说正文内容,确保了数据来源的合法性与边界清晰性。
特点
该数据集以轻小说及其衍生作品为核心,收录了完整的元数据条目,每部作品均附带详细的描述性文本与章节结构。其特点在于字段设计全面,从作品标识到分集链接均被精确记录,且所有数据均以日语呈现,为日本流行文学研究提供了纯净的语言资源。数据规模适中,便于快速加载与实验验证。
使用方法
在自然语言处理与数字人文研究中,该数据集适用于元数据挖掘、作者风格分析或推荐系统原型开发。用户可通过HuggingFace数据集库直接加载,利用标准接口访问作品标题、描述及章节列表等字段。鉴于数据不含正文,建议将其与文本内容数据集结合使用,以支持更深入的跨模态或内容关联分析。
背景与挑战
背景概述
在数字出版与网络文学蓬勃发展的时代背景下,日本轻小说与网络连载作品构成了一个庞大且充满活力的文化市场。为促进对这类作品内容与传播模式的系统性研究,数据集“p1atdev/novecomi-novel-metadata”应运而生。该数据集由独立研究者或机构于近期创建,其核心研究问题聚焦于对日本电击文库旗下Novecomi平台连载小说的元数据进行结构化整理与分析。通过系统性地采集作品标题、作者、简介及章节链接等关键信息,该数据集为文学计算、推荐系统以及数字出版趋势分析等领域提供了宝贵的基础资源,有助于深化对当代日本网络文学生态的理解。
当前挑战
该数据集旨在解决的领域问题是网络小说元数据的标准化与可访问性,其核心挑战在于如何从动态且结构复杂的商业网站中高效、准确地提取并整合异构信息。在构建过程中,主要挑战包括应对网站反爬虫机制以保障数据采集的合规性与稳定性,以及处理非结构化或半结构化HTML内容以精确解析出作者、章节列表等关键字段,同时确保数据的一致性与完整性。此外,由于数据集规模较小且仅包含元数据而无正文内容,其在支持深度文本挖掘或内容分析等下游任务时存在固有局限性。
常用场景
经典使用场景
在数字文学与自然语言处理领域,novecomi-novel-metadata数据集为轻小说元数据研究提供了结构化基础。该数据集收录了日本电击文库Novecomi平台上的小说条目,包含标题、作者、简介及章节链接等关键信息,其经典使用场景集中于文本挖掘与推荐系统开发。研究者可借助这些元数据,分析轻小说的主题分布、作者创作风格,或构建基于内容的过滤模型,以探索作品间的语义关联与用户偏好模式。
解决学术问题
该数据集有效解决了文学计算中元数据稀缺性与标准化不足的学术挑战。通过提供规范化的轻小说元数据,它支持了对日本流行文学作品的规模化分析,促进了跨作品的内容比较与风格演化研究。在信息检索领域,它帮助学者验证元数据对搜索准确性的影响,同时为数字人文研究提供了可重复的数据基础,推动了文学分析与机器学习方法的交叉融合。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其元数据特征,研究者开发了轻小说题材自动分类模型,实现了对幻想、恋爱等主题的精准识别。另有工作利用作者与描述字段,构建了作者风格迁移分析框架,探讨了创作元素的跨作品延续性。这些研究不仅丰富了计算文学的方法体系,也为后续的跨语言文学元数据整合提供了参考范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作