64bits/lex_fridman_podcast_for_llm_vicuna

Name: 64bits/lex_fridman_podcast_for_llm_vicuna
Creator: 64bits
Published: 2023-06-09 10:13:46
License: 暂无描述

Hugging Face2023-06-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/64bits/lex_fridman_podcast_for_llm_vicuna

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Lex Fridman Podcast的音频转文字记录，涵盖了科学、技术、历史、哲学等多个主题。数据集被格式化为ShareGPT格式，适用于训练和优化大型语言模型，如Vicuna和WizardVicuna。数据集提供了丰富且富有洞察力的对话资源，涵盖了广泛的语言使用和主题专业知识。数据集有三个版本：原始版本、分块版本和适应Vicuna训练的分块版本。

提供机构：

64bits

原始信息汇总

数据集概述

基本信息

任务类别: 文本生成
语言: 英语
名称: lex-llm
标签: transformers

数据集描述

该数据集包含来自Lex Fridman播客的音频转文本记录。Lex Fridman播客由MIT的AI研究员Lex Fridman主持，深入探讨了科学、技术、历史、哲学以及智能、意识、爱和权力等主题。播客嘉宾来自不同领域，提供独特的见解。

数据集已格式化为ShareGPT格式，适用于Vicuna、WizardVicuna等对话式大型语言模型（LLMs）。

数据集版本

_original: 原始数据集，每个条目为整个节目。
_chunked: 分块数据集，节目被格式化为大约1200字（约<2048个令牌）的块。
_chunked_gpt: 在_chunked数据集中，将"lex"和"guest"改为"human"和"gpt"，以适应Vicuna训练。

数据处理步骤

获取Lex Fridman播客的所有节目链接。
将每个节目的转录文本从HTML格式转换为JSON格式（Vicuna ShareGPT格式）。
删除每个节目开头Lex的几句话，以去除介绍和广告。

问题与关注点

这些是音频转文本的转录，包含不准确的检测。
尽管发言人是专业人士，但这些是口头对话，包含口语表达。
数据集可能包含广告和Lex Fridman及嘉宾的个人意见。

后续步骤

使用该数据集微调LLaMA、WizardVicuna、Vicuna模型。

5,000+

优质数据集

54 个

任务类型

进入经典数据集