five

fabiochiu/medium-articles

收藏
Hugging Face2022-07-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fabiochiu/medium-articles
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集通过标准爬取过程从Medium网站收集的已发布文章组成。每行数据代表一篇Medium上的文章,包含以下特征:标题(字符串类型)、文本内容(字符串类型)、文章URL(字符串类型)、作者(字符串列表)、发布时间(字符串类型)和标签(字符串列表)。数据集可用于多标签分类模型、序列到序列模型、文本分析等任务。数据收集使用了Python和requests库,并通过newspaper库解析HTML页面,仅保留了英文文章。由于收集方法的原因,数据集中的文章发布时间分布不均匀,主要集中在2020年。
提供机构:
fabiochiu
原始信息汇总

数据集概述

数据来源

数据集通过标准爬虫过程从Medium网站收集,专注于已发布的文章。

数据描述

  • 标题 [字符串]:文章的标题。
  • 内容 [字符串]:文章的文本内容。
  • URL [字符串]:与文章关联的URL。
  • 作者 [字符串列表]:文章的作者。
  • 时间戳 [字符串]:文章的发布时间。
  • 标签 [字符串列表]:与文章关联的标签列表。

数据分析

数据集包含一个快速的数据分析,可在此笔记本中查看。

数据用途

  • 多标签分类模型,用于为文章分配标签。
  • 序列到序列模型,用于生成文章标题。
  • 文本分析。
  • 针对Medium的一般领域或通过适当标签过滤文章的特定领域,微调文本生成模型。

收集方法

使用Python和requests库进行爬虫。爬取过程包括访问:

  1. 作者档案页面。
  2. 出版物档案页面(如有)。
  3. 标签档案(如有)。

使用newspaper Python库解析文章HTML页面。

仅筛选英文文章,使用langdetect库进行语言检测。

由于收集方法,爬取的文章发布日期分布不均。数据集中包含2016年至2022年间的文章,但各年份的文章数量不等,特别是2020年的文章数量占多数。详细分布可参考附带笔记本

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作