SFGram

github2024-02-25 更新2024-05-31 收录

下载链接：

https://github.com/nschaetti/SFGram-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SFGram是一个包含公共科幻小说、书籍和电影封面的数据集，旨在供研究人员研究科幻文学随时间的演变，并测试机器学习算法在作者归属和文档分类任务上的应用。所有文档均来自公共领域，获取自Gutenberg项目或archive.org网站。

SFGram is a dataset comprising public domain science fiction novels, books, and movie covers, designed to facilitate researchers in studying the evolution of science fiction literature over time and to test machine learning algorithms in tasks such as author attribution and document classification. All documents are sourced from the public domain, obtained from the Gutenberg Project or the archive.org website.

创建时间：

2017-08-16

原始信息汇总

数据集概述

数据集名称: SFGram

内容: SFGram 数据集包含数千本科幻小说、小说和电影信息。该数据集主要由公共领域的科幻小说、书籍和电影封面组成，旨在供研究人员用于研究科幻文学的演变，并测试机器学习算法在作者归属和文档分类任务上的应用。

数据来源: 所有文档均来自公共领域，主要从古腾堡项目或archive.org网站获取。

数据集结构

文件和目录:

authors: 包含所有作者文件，每个文件名为“authorsXXXXX.json”，其中XXXXX是作者ID。
book-contents: 包含所有文本文档，每个文件名为“bookXXXXX.txt”，其中XXXXX是书籍ID。
book-covers: 包含所有书籍封面，每个文件名为“bookXXXXX-NAME.jpg”。
book-images: 包含书籍的图像，如果对应的书籍在维基百科页面存在。
books: 包含所有书籍的JSON文件。
authors.json: 包含所有作者目录中的JSON对象列表。
books.json: 包含所有书籍目录中的JSON对象列表。
countries.json: 包含国家列表，每个对象包含国家名称和ID，以及与之关联的书籍ID。
years.json: 包含年份列表，每个对象包含年份和该年出版的书籍ID。

作者信息:

字段: 包括姓名、国家、性别、简介、出生日期、书籍列表等。
示例: Ayn Rand的详细信息，包括其姓名、国家、性别、简介、出生和死亡日期等。

书籍信息:

字段: 包括内容名称、作者姓名、图像URL、出版年份、标题、描述等。
示例: 《The Face and the Mask》的详细信息，包括作者、出版年份、标题、描述等。

国家信息:

字段: 包括书籍列表、国家ID、名称、作者列表。
示例: 英国的详细信息，包括与之关联的书籍和作者。

年份信息:

字段: 包括书籍数量、书籍列表。
示例: 2017年的详细信息，包括该年出版的书籍数量和列表。

数据集用途

SFGram数据集主要用于研究科幻文学的演变和测试机器学习算法，特别是在作者归属和文档分类任务上。

搜集汇总

数据集介绍

构建方式

SFGram数据集的构建基于公共领域的科幻文学作品和电影信息，主要来源于Gutenberg项目和archive.org网站。数据集通过系统化的数据采集和整理，涵盖了数千本科幻小说、书籍和电影封面。每部作品均经过详细标注，包括作者信息、出版年份、书籍封面、内容摘要等，确保了数据的完整性和可用性。

使用方法

SFGram数据集适用于多种研究场景，如科幻文学的演变分析、作者身份识别和文档分类任务。研究者可以通过数据集提供的JSON文件，轻松访问书籍、作者、国家和年份等信息。数据集的结构化设计使得用户能够快速提取所需数据，并通过机器学习算法进行深入分析。

背景与挑战

背景概述

SFGram数据集由Nils Schaetti于2018年创建，旨在为研究人员提供一个包含数千本科幻小说、书籍和电影信息的公开数据集。该数据集主要来源于Gutenberg项目和archive.org网站，涵盖了公共领域的科幻文学作品。SFGram的核心研究问题在于通过分析这些文学作品，探讨科幻文学随时间的演变，并测试机器学习算法在作者归属和文档分类任务中的表现。该数据集不仅为文学研究提供了丰富的素材，还为自然语言处理和机器学习领域的研究者提供了宝贵的实验数据。

当前挑战

SFGram数据集在构建过程中面临多重挑战。首先，数据收集的复杂性在于需要从多个来源获取并整合大量公共领域的科幻文学作品，确保数据的完整性和一致性。其次，数据清洗和标注工作耗时且繁琐，尤其是对书籍内容、作者信息和图像数据的处理，需要大量的人工干预。此外，数据集的多样性和复杂性对机器学习算法的性能提出了更高的要求，尤其是在作者归属和文档分类任务中，如何有效处理文本特征和图像特征仍是一个亟待解决的问题。最后，数据集的更新和维护也需要持续投入，以确保其能够反映最新的研究成果和技术进展。

常用场景

经典使用场景

SFGram数据集广泛应用于科幻文学研究领域，特别是在分析科幻小说的历史演变和风格变迁方面。研究者通过该数据集能够深入探讨不同时期科幻作品的主题、叙事结构和文化背景，揭示科幻文学的发展脉络。此外，该数据集还被用于机器学习算法的测试，尤其是在作者归属和文档分类任务中，为自然语言处理领域提供了宝贵的数据资源。

解决学术问题

SFGram数据集解决了科幻文学研究中长期存在的数据匮乏问题，为研究者提供了丰富的文本和图像资源。通过该数据集，学者能够系统地分析科幻小说的创作趋势、作者风格以及跨文化影响，从而推动科幻文学研究的深入发展。此外，该数据集还为机器学习算法的开发与优化提供了实验基础，特别是在文本分类和作者识别等任务中，显著提升了算法的准确性和鲁棒性。

实际应用

SFGram数据集在实际应用中具有广泛的潜力，特别是在教育、出版和文化产业中。教育机构可以利用该数据集开发科幻文学课程，帮助学生深入了解科幻作品的历史和创作背景。出版行业则可以通过分析数据集中的作品风格和读者偏好，优化科幻小说的出版策略。此外，文化产业可以利用该数据集进行科幻主题的展览和活动策划，推动科幻文化的传播与普及。

数据集最近研究