Philipp-Sc/LexiGPT-Podcast-Corpus
收藏Hugging Face2023-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Philipp-Sc/LexiGPT-Podcast-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
LexiGPT-Podcast-Corpus数据集提供了Lex Fridman播客的转录本集合,这些转录本经过精心策划并使用GPT-3.5进行了增强。
提供机构:
Philipp-Sc
原始信息汇总
数据集名称:LexiGPT-Podcast-Corpus
描述
LexiGPT-Podcast-Corpus 数据集是从 Lex Fridman 播客的转录文本中创建的,每个转录文本被分割成最多 1000 个令牌的块,并使用 GPT-3.5 增强每个块的描述和上下文字段。
特征
数据集提供的特征包括:标题、描述、上下文、转录文本。
使用方法
-
下载数据集到目录:
LexiGPT-Podcast-Corpus/dataset.json -
加载数据集: python dataset = load_dataset(json, data_files=LexiGPT-Podcast-Corpus/dataset.json, field=data)
-
定义自定义格式化函数: python def custom_format(example): formatted_text = f"### INSTRUCTIONS:
Generate the video transcript {example[Title]}:
{example[Description]}
CONTEXT: {example[Context]}
TRANSCRIPT:
{example[Transcript]}" return {"text": formatted_text}
-
使用自定义格式化函数添加新字段: python dataset = dataset.map(custom_format)
-
访问并打印特定行: python example = dataset["train"]["text"][0] print(example)



