Abirate/english_quotes
收藏数据集概述
一、数据集简介
english_quotes 是一个从 goodreads quotes 网站收集的英语名言数据集。该数据集适用于多标签文本分类和文本生成任务。每个名言均为英语,涉及自然语言处理及其他领域的数据集。
二、支持的任务与评测
- 多标签文本分类:用于训练模型对名言进行作者和主题(通过标签)的分类。成功标准通常是高或低的准确率。
- 文本生成:用于训练模型生成名言,通过在现有预训练模型上对整个名言库(或特定作者的名言)进行微调实现。
三、语言
数据集中的文本语言为英语。
四、数据集结构
数据实例
一个典型的数据实例示例(JSON格式): python {author: Ralph Waldo Emerson, quote: “To be yourself in a world that is constantly trying to make you something else is the greatest accomplishment.”, tags: [accomplishment, be-yourself, conformity, individuality]}
数据字段
- author:名言的作者。
- quote:名言的文本内容。
- tags:与名言相关的主题标签。
数据分割
数据集未进行预先分割,用户可使用Hugging Face数据集库的方法(如 .train_test_split())自行分割。
五、数据集创建
数据收集与规范化
数据通过使用BeautifulSoup和Requests库进行网页抓取收集。收集后,移除了所有标签为"None"的名言,并从所有标签中移除了"attributed-no-source",因其对名言主题无增值作用。
数据源
数据源为 goodreads 网站的 goodreads quotes 部分。
数据生产者
数据通过机器生成(使用网页抓取技术)并经过人工额外处理。
六、附加信息
数据集维护者
Abir ELTAIEF
许可证信息
本作品采用Creative Commons Attribution 4.0 International License 许可,所有用于网页抓取的软件和库均在此Creative Commons Attribution许可下提供。




