five

muntasir2179/rag-hallucination-combined-dataset-v1

收藏
Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/muntasir2179/rag-hallucination-combined-dataset-v1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个混合数据集,是多个数据集融合的结果。数据集包含用于聊天模型的格式化文本,特别是为TinyLlama-1.1b模型创建的。每个文本中都包含特殊标记,可以用于微调任何与TinyLlama使用相同特殊标记的预训练模型。该数据集的一个关键特点是提供了聊天和幻觉提示,用于微调大型语言模型(LLM),显著减少其幻觉率。

这是一个混合数据集,是多个数据集融合的结果。数据集包含用于聊天模型的格式化文本,特别是为TinyLlama-1.1b模型创建的。每个文本中都包含特殊标记,可以用于微调任何与TinyLlama使用相同特殊标记的预训练模型。该数据集的一个关键特点是提供了聊天和幻觉提示,用于微调大型语言模型(LLM),显著减少其幻觉率。
提供机构:
muntasir2179
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 特征:
    • text: 字符串类型
  • 分割:
    • train: 10400个示例,占用40744435字节
  • 下载大小: 23934035字节
  • 数据集大小: 40744435字节
  • 配置:
    • default: 训练数据路径为data/train-*

任务类别

  • 文本到文本生成
  • 问答

语言

  • 英语

大小类别

  • 10K<n<100K

数据集描述

  • 该数据集是多个数据集的融合,特别为TinyLlama-1.1b模型创建,包含用于聊天模型的格式化文本。
  • 数据集中的每个文本包含特殊标记,可用于微调预训练了相同特殊标记的模型。

特殊功能

  • 数据集提供聊天和幻觉提示,用于微调大型语言模型(LLM)以显著降低幻觉率,提高模型性能。

数据格式

python <|system|> You are a friendly chatbot who always answer users question by looking into the provided context.</s> <|user|> {context} {question}</s> <|assistant|> {answer}</s>

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作