64bits/lex_fridman_podcast_for_llm_vicuna
收藏Hugging Face2023-06-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/64bits/lex_fridman_podcast_for_llm_vicuna
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Lex Fridman Podcast的音频转文字记录,涵盖了科学、技术、历史、哲学等多个主题。数据集被格式化为ShareGPT格式,适用于训练和优化大型语言模型,如Vicuna和WizardVicuna。数据集提供了丰富且富有洞察力的对话资源,涵盖了广泛的语言使用和主题专业知识。数据集有三个版本:原始版本、分块版本和适应Vicuna训练的分块版本。
该数据集是Lex Fridman Podcast的音频转文字记录,涵盖了科学、技术、历史、哲学等多个主题。数据集被格式化为ShareGPT格式,适用于训练和优化大型语言模型,如Vicuna和WizardVicuna。数据集提供了丰富且富有洞察力的对话资源,涵盖了广泛的语言使用和主题专业知识。数据集有三个版本:原始版本、分块版本和适应Vicuna训练的分块版本。
提供机构:
64bits
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本生成
- 语言: 英语
- 名称: lex-llm
- 标签: transformers
数据集描述
该数据集包含来自Lex Fridman播客的音频转文本记录。Lex Fridman播客由MIT的AI研究员Lex Fridman主持,深入探讨了科学、技术、历史、哲学以及智能、意识、爱和权力等主题。播客嘉宾来自不同领域,提供独特的见解。
数据集已格式化为ShareGPT格式,适用于Vicuna、WizardVicuna等对话式大型语言模型(LLMs)。
数据集版本
- _original: 原始数据集,每个条目为整个节目。
- _chunked: 分块数据集,节目被格式化为大约1200字(约<2048个令牌)的块。
- _chunked_gpt: 在_chunked数据集中,将"lex"和"guest"改为"human"和"gpt",以适应Vicuna训练。
数据处理步骤
- 获取Lex Fridman播客的所有节目链接。
- 将每个节目的转录文本从HTML格式转换为JSON格式(Vicuna ShareGPT格式)。
- 删除每个节目开头Lex的几句话,以去除介绍和广告。
问题与关注点
- 这些是音频转文本的转录,包含不准确的检测。
- 尽管发言人是专业人士,但这些是口头对话,包含口语表达。
- 数据集可能包含广告和Lex Fridman及嘉宾的个人意见。
后续步骤
- 使用该数据集微调LLaMA、WizardVicuna、Vicuna模型。



