Regemens/quotesTest

Name: Regemens/quotesTest
Creator: Regemens
Published: 2023-07-13 14:35:05
License: 暂无描述

Hugging Face2023-07-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Regemens/quotesTest

下载链接

链接失效反馈

官方服务：

资源简介：

English quotes数据集包含从Goodreads网站抓取的所有引用。该数据集可用于多标签文本分类和文本生成任务。每个引用的内容均为英文，涉及NLP及其他领域的数据集。数据集以JSON格式存储，包含作者、引用文本和标签三个字段。数据集的创建过程包括使用BeautifulSoup和Requests库进行网络爬虫，以及数据清洗。

提供机构：

Regemens

原始信息汇总

数据集概述

数据集名称

english_quotes

数据集摘要

来源：数据集包含的所有引文均来自goodreads quotes。
用途：适用于多标签文本分类和文本生成任务。
语言：英语（en）。

支持的任务和评估指标

多标签文本分类：用于训练模型，通过作者和主题标签对引文进行分类。评估指标通常为准确率。
文本生成：用于训练模型生成引文，通过在现有预训练模型上微调实现。

数据集结构

数据实例：数据以JSON格式存储，示例包括作者、引文文本和相关标签。
数据字段：
- author：引文的作者。
- quote：引文文本。
- tags：与引文相关的主题标签。
数据分割：数据集未预先分割，用户可使用Hugging Face数据集库的方法进行分割。

数据集创建

采集理由：分享通过网络爬虫和额外清理处理创建的数据集，以促进NLP任务和人工智能的发展。
源数据：数据来源于goodreads网站的引文部分。
初始数据收集和规范化：使用BeautifulSoup和Requests库进行网络爬虫，数据经过轻微修改，移除了无价值标签。
数据生产者：数据通过机器生成（网络爬虫）并经过人工额外处理。

附加信息

数据集维护者：Abir ELTAIEF
许可信息：本作品采用Creative Commons Attribution 4.0 International License许可。
贡献者：@Abirate

5,000+

优质数据集

54 个

任务类型

进入经典数据集