five

TurkuNLP/genre-6

收藏
Hugging Face2023-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/genre-6
下载链接
链接失效反馈
官方服务:
资源简介:
Genre-6数据集是一个基于Kindletrends(英国和美国)的英文数据集,包含超过20,000本书籍及其相关类别,并提供了二分类和多标签分类的标签。数据集的结构包括文本、类别、虚构/非虚构标签以及多个子集的标签。数据集分为训练集(80%)、验证集(10%)和测试集(10%)。数据来源为Kindletrends网站。
提供机构:
TurkuNLP
原始信息汇总

数据集卡片 for Dataset Name

数据集概述

Genre-6 数据集是一个基于 Kindletrends(英国 & 美国)的英语数据集。它包含超过 20,000 本书籍及其相关类别,具有现成的二元分类和多标签分类标签。

数据集结构

数据实例

json {"text": "...", "categories": "Engineering & Transportation;Science & Math", "fiction": "non-fiction", "split1": [Science & Math], "split2" : [Engineering & Transportation, Science & Math], "split3": [Science & Math]}

数据字段

  • text: Kindletrends 文本
  • categories: Kindletrends 类别(每本书籍 1 到 2 个类别)
  • fiction: 小说和非小说书籍的二元标签
  • splits 1,2,3: 不同类别子集的多标签

数据分割

数据集包含训练(80%)、验证(10%)和测试(10%)分割。

多标签的分割如下:

  • split1: Biology & Nature & Biological Sciences, Computer Science, Fantasy, Medicine & Health Sciences, Philosophy, Science & Math
  • split2: Biology & Nature & Biological Sciences, Computer Science, Engineering & Transportation, Fantasy, Medicine & Health Sciences, Science & Math
  • split3: Biology & Nature & Biological Sciences, Computer Science, Fantasy, Medicine & Health Sciences, Poetry, Politics & Social Sciences, Science & Math

可以从 "categories" 字段生成更多分割。

源数据

Kindletrends

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作