Locutusque/ColumnedChatCombined
收藏Hugging Face2023-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/ColumnedChatCombined
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是ChatCombined数据集的一个版本,其中每个令牌被分成三个不同的列:System、User和Assistant。这些列分别包含系统提示、用户输入和模型输出。数据集适用于对话、问答和文本生成任务,支持英文和中文,规模在1M到10M之间。
该数据集是ChatCombined数据集的一个版本,其中每个令牌被分成三个不同的列:System、User和Assistant。这些列分别包含系统提示、用户输入和模型输出。数据集适用于对话、问答和文本生成任务,支持英文和中文,规模在1M到10M之间。
提供机构:
Locutusque
原始信息汇总
数据集概述
基本信息
- 许可: openrail
- 任务类别:
- 对话
- 问答
- 文本生成
- 语言:
- 英语
- 中文
- 数据规模: 1M<n<10M
数据结构
- 数据集版本: ChatCombined数据集的版本,每个token被分为三个不同的列。
- 列说明:
- "System" - 包含系统提示的字符串
- "User" - 包含用户输入的字符串
- "Assistant" - 包含模型输出的字符串
数据加载
- 加载方式: python with open("formatted_data.json") as f: data = json.load(f) val_data = data["validation"] data = data["train"]
示例用法
- 数据访问: python def getitem(self, idx): system = self.data[idx]["System"].strip( ) user = self.data[idx]["User"].strip( ) assistant = self.data[idx]["Assistant"].strip( ) return system, user, assistant
引用
-
引用格式:
@misc{huggingface2023, title={dmayhem93/ChatCombined}, author={{dmayhem93}}, year=2023, url="https://huggingface.co/datasets/dmayhem93/ChatCombined" }



