genre-6
收藏魔搭社区2025-10-09 更新2025-08-09 收录
下载链接:
https://modelscope.cn/datasets/TurkuNLP/genre-6
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for Dataset Name
## Dataset Summary
Genre-6 dataset is an English dataset based on Kindletrends (UK & US). It contains more than 20k books and associated categories with ready-made binary classification and multilabel classification labels.
## Dataset Structure
### Data Instances
`` {"text": "...", "categories": "Engineering & Transportation;Science & Math", "fiction": "non-fiction", "split1": ['Science & Math'], "split2" : ['Engineering & Transportation', 'Science & Math'], "split3": ['Science & Math']} ``
### Data Fields
- text: Kindletrends text
- categories: Kidletrends categories (1 to 2 categories per book)
- fiction: binary label for fiction and non-fiction books
- splits 1,2,3: multilabel for different subsets of the categories
### Data Splits
The dataset contains train (80%), validation (10%) and test (10%) splits.
The splits for multilabels are following:
- split1: 'Biology & Nature & Biological Sciences','Computer Science', 'Fantasy','Medicine & Health Sciences','Philosophy','Science & Math'.
- split2: 'Biology & Nature & Biological Sciences','Computer Science', 'Engineering & Transportation','Fantasy','Medicine & Health Sciences','Science & Math'.
- split3: 'Biology & Nature & Biological Sciences','Computer Science', 'Fantasy','Medicine & Health Sciences', 'Poetry', 'Politics & Social Sciences', 'Science & Math'.
More splits can be generated from the field "categories".
### Source Data
[Kindletrends](https://kindletrends.com/categories/)
# 数据集卡片(Dataset Card)
## 数据集概述
Genre-6数据集是基于Kindletrends(英国与美国市场)的英文数据集,涵盖超2万本图书及其关联分类,并附带预制备的二分类与多分类标注标签。
## 数据集结构
### 数据实例
json
{"text": "...", "categories": "工程与交通;数学与科学", "fiction": "non-fiction", "split1": ["数学与科学"], "split2": ["工程与交通", "数学与科学"], "split3": ["数学与科学"]}
### 数据字段
- `text`:Kindletrends文本
- `categories`:Kindletrends分类标签(每本图书对应1至2个分类)
- `fiction`:图书虚构/非虚构二分类标注
- `splits 1,2,3`:对应不同分类子集的多分类标注
## 数据拆分
该数据集包含训练集(80%)、验证集(10%)与测试集(10%)三个拆分。
多分类拆分详情如下:
- 拆分集1:「生物学与自然及生物科学」、「计算机科学」、「奇幻」、「医学与健康科学」、「哲学」、「数学与科学」
- 拆分集2:「生物学与自然及生物科学」、「计算机科学」、「工程与交通」、「奇幻」、「医学与健康科学」、「数学与科学」
- 拆分集3:「生物学与自然及生物科学」、「计算机科学」、「奇幻」、「医学与健康科学」、「诗歌」、「政治与社会科学」、「数学与科学」
此外,可从`categories`字段生成更多拆分。
## 源数据
[Kindletrends](https://kindletrends.com/categories/)
提供机构:
maas
创建时间:
2025-08-08



