nmac/lex_fridman_podcast
收藏Hugging Face2023-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nmac/lex_fridman_podcast
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了Lex Fridman播客(第1至325集)的转录文本。这些转录文本是使用OpenAI Whisper(大模型)生成的,并公开在https://karpathy.ai/lexicap/index.html。数据集包含约803K条记录,每条记录包括转录文本、集数ID、标题、嘉宾姓名以及每个转录的开始和结束时间戳。
This dataset contains the transcriptions of the Lex Fridman Podcast (episodes 1 to 325). These transcriptions were generated using OpenAI Whisper, a large language model, and are publicly available at https://karpathy.ai/lexicap/index.html. The dataset includes approximately 803,000 records, with each record containing the transcription text, episode ID, title, guest name, as well as the start and end timestamps of each transcribed segment.
提供机构:
nmac
原始信息汇总
数据集概述
数据集名称
lex_fridman_podcast
数据集摘要
该数据集包含Lex Fridman播客(第1至325集)的转录文本。转录文本由OpenAI Whisper(大型模型)生成,并公开发布于karpathy.ai/lexicap/index.html。
语言
- 英语
数据集结构
数据集包含约803K条记录,包括从第1至325集Lex Fridman播客生成的音频转录。除了转录文本外,数据集还包括其他元数据,如集数ID、标题、嘉宾姓名以及每个转录的起始和结束时间戳。
数据字段
- id: 集数ID。
- guest: 受访嘉宾姓名。
- title: 集数标题。
- text: 转录文本。
- start: 转录开始时间戳(
HH:mm:ss.mmm)。 - end: 转录结束时间戳(
HH:mm:ss.mmm)。
来源数据
来源数据由Andrej Karpathy提供,地址为karpathy.ai/lexicap/index.html。



