TurkuNLP/genre-6
收藏Hugging Face2023-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/genre-6
下载链接
链接失效反馈官方服务:
资源简介:
Genre-6数据集是一个基于Kindletrends(英国和美国)的英文数据集,包含超过20,000本书籍及其相关类别,并提供了二分类和多标签分类的标签。数据集的结构包括文本、类别、虚构/非虚构标签以及多个子集的标签。数据集分为训练集(80%)、验证集(10%)和测试集(10%)。数据来源为Kindletrends网站。
提供机构:
TurkuNLP
原始信息汇总
数据集卡片 for Dataset Name
数据集概述
Genre-6 数据集是一个基于 Kindletrends(英国 & 美国)的英语数据集。它包含超过 20,000 本书籍及其相关类别,具有现成的二元分类和多标签分类标签。
数据集结构
数据实例
json {"text": "...", "categories": "Engineering & Transportation;Science & Math", "fiction": "non-fiction", "split1": [Science & Math], "split2" : [Engineering & Transportation, Science & Math], "split3": [Science & Math]}
数据字段
- text: Kindletrends 文本
- categories: Kindletrends 类别(每本书籍 1 到 2 个类别)
- fiction: 小说和非小说书籍的二元标签
- splits 1,2,3: 不同类别子集的多标签
数据分割
数据集包含训练(80%)、验证(10%)和测试(10%)分割。
多标签的分割如下:
- split1: Biology & Nature & Biological Sciences, Computer Science, Fantasy, Medicine & Health Sciences, Philosophy, Science & Math
- split2: Biology & Nature & Biological Sciences, Computer Science, Engineering & Transportation, Fantasy, Medicine & Health Sciences, Science & Math
- split3: Biology & Nature & Biological Sciences, Computer Science, Fantasy, Medicine & Health Sciences, Poetry, Politics & Social Sciences, Science & Math
可以从 "categories" 字段生成更多分割。



