muntasir2179/rag-hallucination-combined-dataset-v1
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/muntasir2179/rag-hallucination-combined-dataset-v1
下载链接
链接失效反馈官方服务:
资源简介:
这是一个混合数据集,是多个数据集融合的结果。数据集包含用于聊天模型的格式化文本,特别是为TinyLlama-1.1b模型创建的。每个文本中都包含特殊标记,可以用于微调任何与TinyLlama使用相同特殊标记的预训练模型。该数据集的一个关键特点是提供了聊天和幻觉提示,用于微调大型语言模型(LLM),显著减少其幻觉率。
这是一个混合数据集,是多个数据集融合的结果。数据集包含用于聊天模型的格式化文本,特别是为TinyLlama-1.1b模型创建的。每个文本中都包含特殊标记,可以用于微调任何与TinyLlama使用相同特殊标记的预训练模型。该数据集的一个关键特点是提供了聊天和幻觉提示,用于微调大型语言模型(LLM),显著减少其幻觉率。
提供机构:
muntasir2179
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 特征:
- text: 字符串类型
- 分割:
- train: 10400个示例,占用40744435字节
- 下载大小: 23934035字节
- 数据集大小: 40744435字节
- 配置:
- default: 训练数据路径为
data/train-*
- default: 训练数据路径为
任务类别
- 文本到文本生成
- 问答
语言
- 英语
大小类别
- 10K<n<100K
数据集描述
- 该数据集是多个数据集的融合,特别为TinyLlama-1.1b模型创建,包含用于聊天模型的格式化文本。
- 数据集中的每个文本包含特殊标记,可用于微调预训练了相同特殊标记的模型。
特殊功能
- 数据集提供聊天和幻觉提示,用于微调大型语言模型(LLM)以显著降低幻觉率,提高模型性能。
数据格式
python <|system|> You are a friendly chatbot who always answer users question by looking into the provided context.</s> <|user|> {context} {question}</s> <|assistant|> {answer}</s>



