mtrazzi/talk-to-paul

Name: mtrazzi/talk-to-paul
Creator: mtrazzi
Published: 2023-11-27 22:56:40
License: 暂无描述

Hugging Face2023-11-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mtrazzi/talk-to-paul

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在通过微调大型语言模型（LLM）来模拟与Paul Christiano的对话。数据集主要包括Lesswrong帖子/评论和播客转录文本。数据集文件包括15M.jsonl、15M.txt和prompt_completion_podcast_data.jsonl，分别以不同的格式存储数据。其中，15M.jsonl和15M.txt包含播客和Lesswrong帖子数据，而prompt_completion_podcast_data.jsonl则采用提示-完成格式，适用于指令微调或聊天机器人训练。数据格式中使用了特定的分隔符如<eop>、<eom>和<eot>来区分不同的文本部分。

提供机构：

mtrazzi

原始信息汇总

talk-to-paul 数据集概述

目标

微调一个大型语言模型（LLM），使其能够模拟Paul Christiano的对话风格。

数据集组成

数据集包含以下文件：

15M.jsonl: 每行包含一个播客或Lesswrong帖子的数据，格式为{"text": "..."}，大小为15Mb。
15M.txt: 与15M.jsonl内容相同，但格式为长文本文件，使用<eop>（帖子结束）分隔，大小为15Mb。
prompt_completion_podcast_data.jsonl: 格式为{"prompt": "...", "completion": "..."}，目前不包含Lesswrong数据，因为将其转换为提示/完成格式较为复杂。

格式说明

prompt_completion_data: 原始文件格式为{"prompt": "...", "completion": "..."}，其中prompt是Paul Christiano说话前的消息，completion是Paul的回应。
其他文件: 消息在"text": ""双引号内使用<eom>（消息结束）分隔，播客或Lesswrong帖子结束时使用<eot>（帖子结束）分隔。
消息/帖子/发言人: 格式为"全名:" [...他们的文本...]或用户名: [...]，在Lesswrong上，Paul Christiano的标识为"Paul Christiano: "。

5,000+

优质数据集

54 个

任务类型

进入经典数据集