mtrazzi/talk-to-paul
收藏Hugging Face2023-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mtrazzi/talk-to-paul
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在通过微调大型语言模型(LLM)来模拟与Paul Christiano的对话。数据集主要包括Lesswrong帖子/评论和播客转录文本。数据集文件包括15M.jsonl、15M.txt和prompt_completion_podcast_data.jsonl,分别以不同的格式存储数据。其中,15M.jsonl和15M.txt包含播客和Lesswrong帖子数据,而prompt_completion_podcast_data.jsonl则采用提示-完成格式,适用于指令微调或聊天机器人训练。数据格式中使用了特定的分隔符如<eop>、<eom>和<eot>来区分不同的文本部分。
该数据集旨在通过微调大型语言模型(LLM)来模拟与Paul Christiano的对话。数据集主要包括Lesswrong帖子/评论和播客转录文本。数据集文件包括15M.jsonl、15M.txt和prompt_completion_podcast_data.jsonl,分别以不同的格式存储数据。其中,15M.jsonl和15M.txt包含播客和Lesswrong帖子数据,而prompt_completion_podcast_data.jsonl则采用提示-完成格式,适用于指令微调或聊天机器人训练。数据格式中使用了特定的分隔符如<eop>、<eom>和<eot>来区分不同的文本部分。
提供机构:
mtrazzi
原始信息汇总
talk-to-paul 数据集概述
目标
微调一个大型语言模型(LLM),使其能够模拟Paul Christiano的对话风格。
数据集组成
数据集包含以下文件:
- 15M.jsonl: 每行包含一个播客或Lesswrong帖子的数据,格式为
{"text": "..."},大小为15Mb。 - 15M.txt: 与
15M.jsonl内容相同,但格式为长文本文件,使用<eop>(帖子结束)分隔,大小为15Mb。 - prompt_completion_podcast_data.jsonl: 格式为
{"prompt": "...", "completion": "..."},目前不包含Lesswrong数据,因为将其转换为提示/完成格式较为复杂。
格式说明
- prompt_completion_data: 原始文件格式为
{"prompt": "...", "completion": "..."},其中prompt是Paul Christiano说话前的消息,completion是Paul的回应。 - 其他文件: 消息在
"text": ""双引号内使用<eom>(消息结束)分隔,播客或Lesswrong帖子结束时使用<eot>(帖子结束)分隔。 - 消息/帖子/发言人: 格式为
"全名:" [...他们的文本...]或用户名: [...],在Lesswrong上,Paul Christiano的标识为"Paul Christiano: "。



