Deval025/openlibrary-unified
收藏Hugging Face2025-06-14 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/Deval025/openlibrary-unified
下载链接
链接失效反馈官方服务:
资源简介:
Open Library统一数据集包含了一个统一视角的Open Library数据,将79GB的原始半结构化数据转换成了3.65GB的Parquet文件,保留了书籍、作者和版本之间的关系。数据集包含了超过5000万条记录,关键字段包括:版本ID、版本标题、ISBN标识符(如有)、出版社、出版日期、作品ID、作品标题、作者ID和作者名称。数据集按出版年代进行组织,包括1800年以前、1800年代至1990年代(每十年一个分区)、2000年及以后,以及出版日期不可识别的作品。
This dataset contains a unified view of Open Library data, transforming 79GB of raw, semi-structured data into a 3.65GB Parquet file that preserves relationships between books, authors, and editions. The dataset contains over 50 million records with the following key fields: edition_id, edition_title, isbn, publisher, publish_date, work_id, work_title, author_id, and author_name. The dataset is organized by publication decade: pre_1800, 1800s-1990s (decade-by-decade partitions), 2000_onwards, and unknown_decade.
提供机构:
Deval025



