five

64bits/lex_fridman_podcast_for_llm_vicuna

收藏
Hugging Face2023-06-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/64bits/lex_fridman_podcast_for_llm_vicuna
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Lex Fridman Podcast的音频转文字记录,涵盖了科学、技术、历史、哲学等多个主题。数据集被格式化为ShareGPT格式,适用于训练和优化大型语言模型,如Vicuna和WizardVicuna。数据集提供了丰富且富有洞察力的对话资源,涵盖了广泛的语言使用和主题专业知识。数据集有三个版本:原始版本、分块版本和适应Vicuna训练的分块版本。

该数据集是Lex Fridman Podcast的音频转文字记录,涵盖了科学、技术、历史、哲学等多个主题。数据集被格式化为ShareGPT格式,适用于训练和优化大型语言模型,如Vicuna和WizardVicuna。数据集提供了丰富且富有洞察力的对话资源,涵盖了广泛的语言使用和主题专业知识。数据集有三个版本:原始版本、分块版本和适应Vicuna训练的分块版本。
提供机构:
64bits
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 英语
  • 名称: lex-llm
  • 标签: transformers

数据集描述

该数据集包含来自Lex Fridman播客的音频转文本记录。Lex Fridman播客由MIT的AI研究员Lex Fridman主持,深入探讨了科学、技术、历史、哲学以及智能、意识、爱和权力等主题。播客嘉宾来自不同领域,提供独特的见解。

数据集已格式化为ShareGPT格式,适用于Vicuna、WizardVicuna等对话式大型语言模型(LLMs)。

数据集版本

  1. _original: 原始数据集,每个条目为整个节目。
  2. _chunked: 分块数据集,节目被格式化为大约1200字(约<2048个令牌)的块。
  3. _chunked_gpt: 在_chunked数据集中,将"lex"和"guest"改为"human"和"gpt",以适应Vicuna训练。

数据处理步骤

  1. 获取Lex Fridman播客的所有节目链接。
  2. 将每个节目的转录文本从HTML格式转换为JSON格式(Vicuna ShareGPT格式)。
  3. 删除每个节目开头Lex的几句话,以去除介绍和广告。

问题与关注点

  1. 这些是音频转文本的转录,包含不准确的检测。
  2. 尽管发言人是专业人士,但这些是口头对话,包含口语表达。
  3. 数据集可能包含广告和Lex Fridman及嘉宾的个人意见。

后续步骤

  1. 使用该数据集微调LLaMA、WizardVicuna、Vicuna模型。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作