Philipp-Sc/LexiGPT-Podcast-Corpus

Name: Philipp-Sc/LexiGPT-Podcast-Corpus
Creator: Philipp-Sc
Published: 2023-08-28 09:50:27
License: 暂无描述

Hugging Face2023-08-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Philipp-Sc/LexiGPT-Podcast-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

LexiGPT-Podcast-Corpus数据集提供了Lex Fridman播客的转录本集合，这些转录本经过精心策划并使用GPT-3.5进行了增强。

提供机构：

Philipp-Sc

原始信息汇总

数据集名称：LexiGPT-Podcast-Corpus

LexiGPT-Podcast-Corpus 数据集是从 Lex Fridman 播客的转录文本中创建的，每个转录文本被分割成最多 1000 个令牌的块，并使用 GPT-3.5 增强每个块的描述和上下文字段。

数据集提供的特征包括：标题、描述、上下文、转录文本。

下载数据集到目录：LexiGPT-Podcast-Corpus/dataset.json
加载数据集： python dataset = load_dataset(json, data_files=LexiGPT-Podcast-Corpus/dataset.json, field=data)
定义自定义格式化函数： python def custom_format(example): formatted_text = f"### INSTRUCTIONS:

Generate the video transcript {example[Title]}:

{example[Description]}

{example[Transcript]}" return {"text": formatted_text}

5,000+

优质数据集

54 个

任务类型

进入经典数据集