five

Philipp-Sc/LexiGPT-Podcast-Corpus

收藏
Hugging Face2023-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Philipp-Sc/LexiGPT-Podcast-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
LexiGPT-Podcast-Corpus数据集提供了Lex Fridman播客的转录本集合,这些转录本经过精心策划并使用GPT-3.5进行了增强。
提供机构:
Philipp-Sc
原始信息汇总

数据集名称:LexiGPT-Podcast-Corpus

描述

LexiGPT-Podcast-Corpus 数据集是从 Lex Fridman 播客的转录文本中创建的,每个转录文本被分割成最多 1000 个令牌的块,并使用 GPT-3.5 增强每个块的描述和上下文字段。

特征

数据集提供的特征包括:标题、描述、上下文、转录文本。

使用方法

  1. 下载数据集到目录:LexiGPT-Podcast-Corpus/dataset.json

  2. 加载数据集: python dataset = load_dataset(json, data_files=LexiGPT-Podcast-Corpus/dataset.json, field=data)

  3. 定义自定义格式化函数: python def custom_format(example): formatted_text = f"### INSTRUCTIONS:

Generate the video transcript {example[Title]}:

{example[Description]}

CONTEXT: {example[Context]}

TRANSCRIPT:

{example[Transcript]}" return {"text": formatted_text}

  1. 使用自定义格式化函数添加新字段: python dataset = dataset.map(custom_format)

  2. 访问并打印特定行: python example = dataset["train"]["text"][0] print(example)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作