fabiochiu/medium-articles
收藏Hugging Face2022-07-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fabiochiu/medium-articles
下载链接
链接失效反馈官方服务:
资源简介:
该数据集通过标准爬取过程从Medium网站收集的已发布文章组成。每行数据代表一篇Medium上的文章,包含以下特征:标题(字符串类型)、文本内容(字符串类型)、文章URL(字符串类型)、作者(字符串列表)、发布时间(字符串类型)和标签(字符串列表)。数据集可用于多标签分类模型、序列到序列模型、文本分析等任务。数据收集使用了Python和requests库,并通过newspaper库解析HTML页面,仅保留了英文文章。由于收集方法的原因,数据集中的文章发布时间分布不均匀,主要集中在2020年。
提供机构:
fabiochiu
原始信息汇总
数据集概述
数据来源
数据集通过标准爬虫过程从Medium网站收集,专注于已发布的文章。
数据描述
- 标题 [字符串]:文章的标题。
- 内容 [字符串]:文章的文本内容。
- URL [字符串]:与文章关联的URL。
- 作者 [字符串列表]:文章的作者。
- 时间戳 [字符串]:文章的发布时间。
- 标签 [字符串列表]:与文章关联的标签列表。
数据分析
数据集包含一个快速的数据分析,可在此笔记本中查看。
数据用途
- 多标签分类模型,用于为文章分配标签。
- 序列到序列模型,用于生成文章标题。
- 文本分析。
- 针对Medium的一般领域或通过适当标签过滤文章的特定领域,微调文本生成模型。
收集方法
使用Python和requests库进行爬虫。爬取过程包括访问:
- 作者档案页面。
- 出版物档案页面(如有)。
- 标签档案(如有)。
使用newspaper Python库解析文章HTML页面。
仅筛选英文文章,使用langdetect库进行语言检测。
由于收集方法,爬取的文章发布日期分布不均。数据集中包含2016年至2022年间的文章,但各年份的文章数量不等,特别是2020年的文章数量占多数。详细分布可参考附带笔记本。



