fabiochiu/medium-articles

Name: fabiochiu/medium-articles
Creator: fabiochiu
Published: 2022-07-17 15:17:09
License: 暂无描述

Hugging Face2022-07-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fabiochiu/medium-articles

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过标准爬取过程从Medium网站收集的已发布文章组成。每行数据代表一篇Medium上的文章，包含以下特征：标题（字符串类型）、文本内容（字符串类型）、文章URL（字符串类型）、作者（字符串列表）、发布时间（字符串类型）和标签（字符串列表）。数据集可用于多标签分类模型、序列到序列模型、文本分析等任务。数据收集使用了Python和requests库，并通过newspaper库解析HTML页面，仅保留了英文文章。由于收集方法的原因，数据集中的文章发布时间分布不均匀，主要集中在2020年。

提供机构：

fabiochiu

原始信息汇总

数据集概述

数据来源

数据集通过标准爬虫过程从Medium网站收集，专注于已发布的文章。

数据描述

标题 [字符串]：文章的标题。
内容 [字符串]：文章的文本内容。
URL [字符串]：与文章关联的URL。
作者 [字符串列表]：文章的作者。
时间戳 [字符串]：文章的发布时间。
标签 [字符串列表]：与文章关联的标签列表。

数据分析

数据集包含一个快速的数据分析，可在此笔记本中查看。

数据用途

多标签分类模型，用于为文章分配标签。
序列到序列模型，用于生成文章标题。
文本分析。
针对Medium的一般领域或通过适当标签过滤文章的特定领域，微调文本生成模型。

收集方法

使用Python和requests库进行爬虫。爬取过程包括访问：

作者档案页面。
出版物档案页面（如有）。
标签档案（如有）。

使用newspaper Python库解析文章HTML页面。

仅筛选英文文章，使用langdetect库进行语言检测。

由于收集方法，爬取的文章发布日期分布不均。数据集中包含2016年至2022年间的文章，但各年份的文章数量不等，特别是2020年的文章数量占多数。详细分布可参考附带笔记本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集