five

mtrazzi/talk-to-paul

收藏
Hugging Face2023-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mtrazzi/talk-to-paul
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在通过微调大型语言模型(LLM)来模拟与Paul Christiano的对话。数据集主要包括Lesswrong帖子/评论和播客转录文本。数据集文件包括15M.jsonl、15M.txt和prompt_completion_podcast_data.jsonl,分别以不同的格式存储数据。其中,15M.jsonl和15M.txt包含播客和Lesswrong帖子数据,而prompt_completion_podcast_data.jsonl则采用提示-完成格式,适用于指令微调或聊天机器人训练。数据格式中使用了特定的分隔符如<eop>、<eom>和<eot>来区分不同的文本部分。

该数据集旨在通过微调大型语言模型(LLM)来模拟与Paul Christiano的对话。数据集主要包括Lesswrong帖子/评论和播客转录文本。数据集文件包括15M.jsonl、15M.txt和prompt_completion_podcast_data.jsonl,分别以不同的格式存储数据。其中,15M.jsonl和15M.txt包含播客和Lesswrong帖子数据,而prompt_completion_podcast_data.jsonl则采用提示-完成格式,适用于指令微调或聊天机器人训练。数据格式中使用了特定的分隔符如<eop>、<eom>和<eot>来区分不同的文本部分。
提供机构:
mtrazzi
原始信息汇总

talk-to-paul 数据集概述

目标

微调一个大型语言模型(LLM),使其能够模拟Paul Christiano的对话风格。

数据集组成

数据集包含以下文件:

  • 15M.jsonl: 每行包含一个播客或Lesswrong帖子的数据,格式为{"text": "..."},大小为15Mb。
  • 15M.txt: 与15M.jsonl内容相同,但格式为长文本文件,使用<eop>(帖子结束)分隔,大小为15Mb。
  • prompt_completion_podcast_data.jsonl: 格式为{"prompt": "...", "completion": "..."},目前不包含Lesswrong数据,因为将其转换为提示/完成格式较为复杂。

格式说明

  • prompt_completion_data: 原始文件格式为{"prompt": "...", "completion": "..."},其中prompt是Paul Christiano说话前的消息,completion是Paul的回应。
  • 其他文件: 消息在"text": ""双引号内使用<eom>(消息结束)分隔,播客或Lesswrong帖子结束时使用<eot>(帖子结束)分隔。
  • 消息/帖子/发言人: 格式为"全名:" [...他们的文本...]用户名: [...],在Lesswrong上,Paul Christiano的标识为"Paul Christiano: "
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作