lodrick-the-lafted/Hermes-40K
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lodrick-the-lafted/Hermes-40K
下载链接
链接失效反馈官方服务:
资源简介:
Hermes-40K数据集是从teknium/openhermes中抽取的40,000行数据,并且不是较新的2.5版本。数据集经过过滤,去除了一些不喜欢的GPTisms和短输出,以偏向于更长的回答。此外,还列出了一些被过滤掉的短语。
Hermes-40K数据集是从teknium/openhermes中抽取的40,000行数据,并且不是较新的2.5版本。数据集经过过滤,去除了一些不喜欢的GPTisms和短输出,以偏向于更长的回答。此外,还列出了一些被过滤掉的短语。
提供机构:
lodrick-the-lafted
原始信息汇总
数据集概述
基本信息
- 名称: Hermes-40K
- 语言: 英语
- 标签:
- 蒸馏
- 合成数据
- GPT
- 任务类别: 文本生成
数据来源
- 数据集是从 teknium/openhermes 中抽样的 40,000 行数据(非最新的 2.5 版本)。
数据处理
- 过滤了一些不喜欢的 GPT 特征表达。
- 移除了输出较短的行,以偏向于较长的回答。
过滤短语
- 过滤的短语包括:
- "couldnt help but"
- "cant resist"
- "random"
- "unethical"
- "Im sorry, but"
- "Im sorry but"
- "as an AI"
- "as a Language Model"
- "AI Language Model"
- "language model"
- "However, it is important to"
- "However, its important"
- "ethical guidelines"
- "just an AI"
- "within my programming"
- "illegal"
- "cannot provide"



