five

genre-6

收藏
魔搭社区2025-10-09 更新2025-08-09 收录
下载链接:
https://modelscope.cn/datasets/TurkuNLP/genre-6
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for Dataset Name ## Dataset Summary Genre-6 dataset is an English dataset based on Kindletrends (UK & US). It contains more than 20k books and associated categories with ready-made binary classification and multilabel classification labels. ## Dataset Structure ### Data Instances `` {"text": "...", "categories": "Engineering & Transportation;Science & Math", "fiction": "non-fiction", "split1": ['Science & Math'], "split2" : ['Engineering & Transportation', 'Science & Math'], "split3": ['Science & Math']} `` ### Data Fields - text: Kindletrends text - categories: Kidletrends categories (1 to 2 categories per book) - fiction: binary label for fiction and non-fiction books - splits 1,2,3: multilabel for different subsets of the categories ### Data Splits The dataset contains train (80%), validation (10%) and test (10%) splits. The splits for multilabels are following: - split1: 'Biology & Nature & Biological Sciences','Computer Science', 'Fantasy','Medicine & Health Sciences','Philosophy','Science & Math'. - split2: 'Biology & Nature & Biological Sciences','Computer Science', 'Engineering & Transportation','Fantasy','Medicine & Health Sciences','Science & Math'. - split3: 'Biology & Nature & Biological Sciences','Computer Science', 'Fantasy','Medicine & Health Sciences', 'Poetry', 'Politics & Social Sciences', 'Science & Math'. More splits can be generated from the field "categories". ### Source Data [Kindletrends](https://kindletrends.com/categories/)

# 数据集卡片(Dataset Card) ## 数据集概述 Genre-6数据集是基于Kindletrends(英国与美国市场)的英文数据集,涵盖超2万本图书及其关联分类,并附带预制备的二分类与多分类标注标签。 ## 数据集结构 ### 数据实例 json {"text": "...", "categories": "工程与交通;数学与科学", "fiction": "non-fiction", "split1": ["数学与科学"], "split2": ["工程与交通", "数学与科学"], "split3": ["数学与科学"]} ### 数据字段 - `text`:Kindletrends文本 - `categories`:Kindletrends分类标签(每本图书对应1至2个分类) - `fiction`:图书虚构/非虚构二分类标注 - `splits 1,2,3`:对应不同分类子集的多分类标注 ## 数据拆分 该数据集包含训练集(80%)、验证集(10%)与测试集(10%)三个拆分。 多分类拆分详情如下: - 拆分集1:「生物学与自然及生物科学」、「计算机科学」、「奇幻」、「医学与健康科学」、「哲学」、「数学与科学」 - 拆分集2:「生物学与自然及生物科学」、「计算机科学」、「工程与交通」、「奇幻」、「医学与健康科学」、「数学与科学」 - 拆分集3:「生物学与自然及生物科学」、「计算机科学」、「奇幻」、「医学与健康科学」、「诗歌」、「政治与社会科学」、「数学与科学」 此外,可从`categories`字段生成更多拆分。 ## 源数据 [Kindletrends](https://kindletrends.com/categories/)
提供机构:
maas
创建时间:
2025-08-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作