SFGram|科幻文学数据集|机器学习数据集
收藏数据集概述
数据集名称
SFGram
数据集内容
SFGram是一个包含数千本科幻小说、书籍和电影信息的公共数据库。该数据集主要用于研究科幻文学的演变和测试机器学习算法,如作者归属和文档分类任务。
数据来源
所有文档均来自公共领域,主要从Gutenberg项目或archive.org网站获取。
数据集结构
文件和目录
- authors: 包含所有作者文件,每个文件名为“authorsXXXXX.json”。
- book-contents: 包含所有文本文档,每个文件名为“bookXXXXX.txt”。
- book-covers: 包含所有书籍封面,每个文件名为“bookXXXXX-NAME.jpg”。
- book-images: 包含书籍的图像,如果该书在Wikipedia上有页面。
- books: 包含所有书籍的JSON文件。
- authors.json: 包含所有作者的JSON对象列表。
- books.json: 包含所有书籍的JSON对象列表。
- countries.json: 包含国家及其相关书籍和作者的信息。
- years.json: 包含每年出版的书籍信息。
作者信息
- name: 作者姓名
- countries: 作者关联的国家ID列表
- gender: 作者性别
- wikipedia: 作者Wikipedia页面的URL
- n_books: 作者在数据集中的书籍数量
- summary: 作者的简短传记
- born: 出生日期
- books: 作者所著书籍的ID列表
- id: 作者ID
- died: 死亡日期(如果有)
书籍信息
- content_name: 文本文件名
- author_name: 主要作者姓名
- images_urls: 书籍图像的URL列表
- year: 出版年份
- images: 书籍图像的URL列表
- id: 书籍ID
- category: 书籍类别
- genres: 书籍所属的流派列表
- copyright: 版权信息
- title: 书籍标题
- wikipedia: Wikipedia页面的URL
- average_rating: 平均评分
- goodreads: Goodreads页面的URL
- similar_books: 类似书籍的标题列表
- description: 书籍摘要
- loc_class: 书籍类别
- gutenberg: Gutenberg项目的URL和ID
- authors: 参与创作的作者ID列表
- language: 语言
- countries: 作者所属国家的ID列表
- release_date: 发布日期
- author: 主要作者ID
- cover: 封面URL
- content_cleaned: 内容是否已清理
- classes: 书籍类别列表
- content_available: 内容是否可用
- n_authors: 参与创作的作者数量
国家信息
- books: 与该国家关联的书籍ID列表
- id: 国家ID
- name: 国家名称
- authors: 与该国家关联的作者ID列表
年份信息
- n_books: 该年出版的书籍数量
- books: 该年出版的书籍ID列表
数据集用途
- 研究科幻文学的演变
- 测试机器学习算法,如作者归属和文档分类任务

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录