five

m8than/raccoon_instruct_mini

收藏
Hugging Face2023-05-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/m8than/raccoon_instruct_mini
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集经过预处理和格式化,使用了OpenAI的ChatML格式,并添加了上下文信息以帮助RWKV模型。数据集主要使用英语,可能包含少量其他语言。未来可能的改进方向包括提升系统提示的效果、获取更多推理数据等。数据格式示例展示了系统、用户、上下文和助手之间的对话结构。

该数据集经过预处理和格式化,使用了OpenAI的ChatML格式,并添加了上下文信息以帮助RWKV模型。数据集主要使用英语,可能包含少量其他语言。未来可能的改进方向包括提升系统提示的效果、获取更多推理数据等。数据格式示例展示了系统、用户、上下文和助手之间的对话结构。
提供机构:
m8than
原始信息汇总

数据集概述

  • 预处理与格式化: 数据集经过预处理和格式化,使用了openai-python的方法,并增加了一个上下文消息以辅助RWKV模型,无需回溯。
  • 额外标记: 数据集额外使用了两个标记,需配合提供的20b_tokeniser文件进行训练和推理。

语言

  • 主要语言: 英语。
  • 其他语言: 可能包含少量其他语言。

数据集格式

  • 示例:

    <|im_start|>system You are a teacher.<|im_end|> <|im_start|>user Given this paragraph about Dartmouth College traditions, which homecoming-related traditions are illegal?<|im_end|> <|im_start|>context ... <|im_start|>assistant Touching the bonfire, and rushing the football field during halftime of the homecoming game<|im_end|>

待办事项

  1. 改进系统提示对输出的影响。
  2. 获取更多推理数据。
  3. 增加数据量。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作