five

SFGram|科幻文学数据集|机器学习数据集

收藏
github2020-06-01 更新2024-05-31 收录
科幻文学
机器学习
下载链接:
https://github.com/SriLikesToSing/SFGram-dataset
下载链接
链接失效反馈
资源简介:
SFGram是一个公共的科幻小说、书籍和电影封面数据集,旨在供研究人员研究科幻文学随时间的演变,并测试机器学习算法在作者归属和文档分类任务上的应用。所有文档均发布在公共领域,来源于Gutenberg项目或archive.org网站。

SFGram is a public dataset of science fiction novels, books, and movie covers, designed for researchers to study the evolution of science fiction literature over time and to test machine learning algorithms in tasks such as author attribution and document classification. All documents are released in the public domain, sourced from the Gutenberg Project or the archive.org website.
创建时间:
2020-06-01
原始信息汇总

数据集概述

数据集名称

SFGram

数据集内容

SFGram是一个包含数千本科幻小说、书籍和电影信息的公共数据库。该数据集主要用于研究科幻文学的演变和测试机器学习算法,如作者归属和文档分类任务。

数据来源

所有文档均来自公共领域,主要从Gutenberg项目或archive.org网站获取。

数据集结构

文件和目录

  • authors: 包含所有作者文件,每个文件名为“authorsXXXXX.json”。
  • book-contents: 包含所有文本文档,每个文件名为“bookXXXXX.txt”。
  • book-covers: 包含所有书籍封面,每个文件名为“bookXXXXX-NAME.jpg”。
  • book-images: 包含书籍的图像,如果该书在Wikipedia上有页面。
  • books: 包含所有书籍的JSON文件。
  • authors.json: 包含所有作者的JSON对象列表。
  • books.json: 包含所有书籍的JSON对象列表。
  • countries.json: 包含国家及其相关书籍和作者的信息。
  • years.json: 包含每年出版的书籍信息。

作者信息

  • name: 作者姓名
  • countries: 作者关联的国家ID列表
  • gender: 作者性别
  • wikipedia: 作者Wikipedia页面的URL
  • n_books: 作者在数据集中的书籍数量
  • summary: 作者的简短传记
  • born: 出生日期
  • books: 作者所著书籍的ID列表
  • id: 作者ID
  • died: 死亡日期(如果有)

书籍信息

  • content_name: 文本文件名
  • author_name: 主要作者姓名
  • images_urls: 书籍图像的URL列表
  • year: 出版年份
  • images: 书籍图像的URL列表
  • id: 书籍ID
  • category: 书籍类别
  • genres: 书籍所属的流派列表
  • copyright: 版权信息
  • title: 书籍标题
  • wikipedia: Wikipedia页面的URL
  • average_rating: 平均评分
  • goodreads: Goodreads页面的URL
  • similar_books: 类似书籍的标题列表
  • description: 书籍摘要
  • loc_class: 书籍类别
  • gutenberg: Gutenberg项目的URL和ID
  • authors: 参与创作的作者ID列表
  • language: 语言
  • countries: 作者所属国家的ID列表
  • release_date: 发布日期
  • author: 主要作者ID
  • cover: 封面URL
  • content_cleaned: 内容是否已清理
  • classes: 书籍类别列表
  • content_available: 内容是否可用
  • n_authors: 参与创作的作者数量

国家信息

  • books: 与该国家关联的书籍ID列表
  • id: 国家ID
  • name: 国家名称
  • authors: 与该国家关联的作者ID列表

年份信息

  • n_books: 该年出版的书籍数量
  • books: 该年出版的书籍ID列表

数据集用途

  • 研究科幻文学的演变
  • 测试机器学习算法,如作者归属和文档分类任务
AI搜集汇总
数据集介绍
main_image_url
构建方式
SFGram数据集的构建基于公共领域的科幻小说、书籍和电影封面,主要来源于Gutenberg项目和archive.org网站。数据集通过自动化脚本从这些公开资源中提取文本、封面图像及相关元数据,并经过结构化处理,最终形成包含作者信息、书籍内容、封面图像、出版年份等多维度的JSON文件。每个文件均经过标准化处理,确保数据的一致性和可访问性。
特点
SFGram数据集涵盖了数千本科幻小说、书籍和电影封面,具有丰富的时间跨度和多样的内容类型。其独特之处在于不仅包含文本内容,还提供了书籍封面、作者传记、出版年份等元数据,支持研究者从多角度分析科幻文学的演变。此外,数据集还包含书籍的Goodreads评分、相似书籍推荐等信息,为机器学习任务如作者归属和文档分类提供了丰富的特征。
使用方法
SFGram数据集的使用方法灵活多样,研究者可通过JSON文件直接访问书籍内容、作者信息和封面图像。数据集适用于多种研究任务,如科幻文学的历史演变分析、作者风格识别、文本分类等。通过调用数据集中的书籍ID、作者ID等字段,用户可以快速构建实验模型。此外,数据集还支持跨语言、跨国家的比较研究,为科幻文学研究提供了全面的数据支持。
背景与挑战
背景概述
SFGram数据集由Nils Schaetti于2018年创建,旨在为研究人员提供一个包含数千本科幻小说、书籍和电影信息的公开数据集。该数据集主要来源于Gutenberg项目和archive.org网站,涵盖了从19世纪末到20世纪末的科幻文学作品。SFGram的核心研究问题在于通过分析这些文学作品,探索科幻文学的演变历程,并应用于机器学习算法的作者归属和文档分类任务。该数据集不仅为文学研究者提供了丰富的历史资料,还为计算机科学领域的文本分析任务提供了重要的实验数据。
当前挑战
SFGram数据集在构建过程中面临多重挑战。首先,数据来源的多样性和复杂性使得数据清洗和标准化成为一项艰巨任务,尤其是不同来源的书籍格式和版权信息不一致。其次,尽管数据集涵盖了广泛的科幻文学作品,但部分作品的元数据(如作者信息、出版年份等)可能不完整或存在误差,这影响了数据的准确性和可靠性。此外,数据集的应用场景主要集中在文本分类和作者归属任务上,但由于科幻文学的风格多样性和跨时代特征,如何设计有效的特征提取和分类模型仍是一个技术难题。最后,数据集的扩展性和更新频率也面临挑战,如何持续获取新的科幻文学作品并保持数据集的时效性仍需进一步探索。
常用场景
经典使用场景
SFGram数据集在文学研究和机器学习领域具有广泛的应用。研究者利用该数据集分析科幻文学的历史演变,探索不同时期科幻作品的主题、风格和叙事结构的变化。此外,该数据集还被用于测试机器学习算法在作者归属和文档分类任务中的表现,为自然语言处理领域的研究提供了丰富的实验数据。
实际应用
在实际应用中,SFGram数据集被广泛用于构建智能推荐系统和内容分析工具。例如,出版商和图书馆可以利用该数据集开发基于内容的书籍推荐系统,帮助读者发现与其兴趣相符的科幻作品。此外,该数据集还被用于开发自动化的文档分类工具,帮助整理和归档大量的科幻文学作品,提升信息检索的效率。
衍生相关工作
SFGram数据集衍生了许多经典的研究工作。例如,基于该数据集的研究成果被用于开发先进的作者归属算法,这些算法能够通过分析文本风格和语言特征准确识别匿名作品的作者。此外,该数据集还推动了科幻文学主题建模和情感分析技术的发展,为文学研究提供了新的量化分析工具。这些衍生工作不仅丰富了科幻文学研究的方法论,也为相关领域的学术研究提供了重要的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录