All Podcasts Dataset

github2018-12-28 更新2024-05-31 收录

下载链接：

https://github.com/codeinpeace/all-podcasts-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个免费的数据集，包含了几乎所有公开可用的播客，至少是我能找到的那些实际运行且格式相对良好的播客。数据集包含约135,000个播客，每个条目通过获取播客的RSS或Atom源，爬取并捕获可用的信息生成。数据于2014年8月捕获，以制表符分隔的.tsv文件形式存在，便于导入到几乎任何系统中。

This is a freely available dataset encompassing nearly all publicly accessible podcasts, at least those that are operational and in relatively good format that I could locate. The dataset comprises approximately 135,000 podcasts, with each entry generated by fetching the podcast's RSS or Atom feed, crawling, and capturing available information. The data was captured in August 2014 and exists in a tab-separated .tsv file format, facilitating its import into virtually any system.

创建时间：

2018-12-28

原始信息汇总

数据集概述

数据集名称

All Podcasts Dataset

数据集描述

本数据集包含约135,000个公开可用的播客信息，数据采集于2014年8月。数据通过获取播客的RSS或Atom feed，进行爬取并捕捉可用信息生成。

数据格式

数据以tab分隔的.tsv文件形式存储，每个文件包含以同一字母开头的所有播客信息。数据中的字段如果包含引号，则使用引号进行分隔；空字段表示为""。

数据内容

每行代表一个播客，包含以下字段：

slug: 计算机生成的短名称或“永久链接”。
name: 播客名称。
image_url: 播客封面图像的URL。
feed_url: 播客RSS/Atom feed的URL。
website_url: 播客主页的URL。
itunes_owner_name: iTunes播客所有者的名称。
itunes_owner_email: iTunes播客所有者的电子邮件地址。
managing_editor_name: 播客管理者的名称。
managing_editor_email: 播客管理者的电子邮件地址。
explicit: 是否包含明确内容的标记。
description: 播客描述。
itunes_summary: iTunes特定的播客描述。

数据集用途

构建播客目录。
进行机器学习分析。
研究RSS feed URL。

数据集限制

数据来源于播客作者发布的RSS/Atom feeds，作者不拥有这些内容。数据可能不完全准确或完整，存在一定量的不良数据。

搜集汇总

数据集介绍

构建方式

All Podcasts Dataset 数据集的构建是通过收集几乎所有公开可用的播客的RSS或Atom订阅源，对其进行爬取，并捕获可用的信息。数据抓取工作完成于2014年8月，共包含约135,000个播客条目，每个条目均通过订阅源生成。

使用方法

用户可以直接将数据集导入到分析系统中，利用播客信息构建播客目录、进行机器学习研究或统计分析。在使用数据集时，用户应遵守相应的使用限制和条款，尊重数据源的所有权，并在使用数据集进行创新工作后与数据集创建者分享成果。

背景与挑战

背景概述

All Podcasts Dataset是一个囊括了几乎所有公开可用播客资源的免费数据集，由数据科学家Adam Geitgey于2014年创建。该数据集通过抓取播客的RSS或Atom订阅源，搜集了大约135,000个播客的信息，旨在为开发播客目录、机器学习项目或其他相关研究提供基础数据。其内容涉及播客名称、封面图片、订阅源链接、官方网站、所有者信息、播客描述等多个方面，对于播客内容分析、推荐系统设计等领域具有显著的研究价值。

当前挑战

尽管All Podcasts Dataset提供了丰富的播客资源，但其在构建过程中及后续应用中亦面临诸多挑战。首先，数据集的完整性及准确性无法得到保证，可能包含一定比例的错误数据。其次，数据集所涵盖的播客内容多样性带来了处理和分类上的困难。此外，如何合法合规地使用播客所有者的个人信息，避免潜在的隐私侵权问题，也是使用该数据集时必须考虑的挑战。

常用场景

经典使用场景

在数字媒体与网络内容研究领域，All Podcasts Dataset数据集被广泛用于构建播客目录，其详尽的播客信息为研究人员提供了丰富的数据资源，可用于分析播客内容的分布特征及听众偏好。

解决学术问题

该数据集解决了学术研究中对于大规模播客数据获取的难题，为研究播客生态系统的结构、播客内容分类以及听众行为分析等提供了基础数据支持，极大地促进了相关学术研究的进展。

实际应用

在实际应用中，该数据集可用于开发播客推荐系统，通过分析播客的属性及其受众特征，为用户提供个性化的播客推荐服务，增强用户体验。

数据集最近研究