islam-hajosman/deutsche_bahn_faq_1k
收藏Hugging Face2024-07-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/islam-hajosman/deutsche_bahn_faq_1k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从德国铁路公司(Deutsche Bahn)官方FAQ部分提取的1000个问答对,专门格式化为与Llama 3指令模型兼容,用于监督微调(SFT)。数据集的主要目的是促进Llama 3指令模型在德国铁路服务领域的客户服务和信息检索任务中的微调。每个样本遵循Llama 3指令格式,包括系统消息、用户消息和助手消息。数据集最初从Deutsche Bahn网站抓取,经过手动清理和过滤以确保质量和相关性,并使用自定义Python脚本应用Llama 3格式。潜在用途包括微调Llama 3指令模型用于客户服务聊天机器人或德国铁路领域的问答系统,以及教育目的。
提供机构:
islam-hajosman
原始信息汇总
数据集概述
数据集名称
Deutsche Bahn FAQ in Llama 3 Format
数据集描述
该数据集包含从德国铁路(Deutsche Bahn)官方FAQ部分提取的1000个问答对。数据已专门格式化为与Llama 3 instruct模型兼容,用于监督微调(SFT)。
数据集目的
该数据集的主要目的是促进Llama 3 instruct模型在德国铁路服务领域中与客户服务和信息检索相关的任务的微调。
数据集结构
每个样本遵循Llama 3 instruct格式,包括:
- 系统消息:为模型提供上下文(“您是德国铁路客户服务的AI助手。”)
- 用户消息:代表客户的问题。
- 助手消息:代表AI助手的理想答案。
数据集创建
数据最初从德国铁路网站(https://www.bahn.de/faq/pk)抓取,然后手动清理和过滤以确保质量和相关性。使用自定义Python脚本应用Llama 3格式。
潜在用途
- 微调Llama 3 instruct模型,用于德国铁路领域的客户服务聊天机器人或问答系统。
- 教育目的,展示LLM的SFT过程。
附加说明
该数据集是完整德国铁路FAQ的一个子集,旨在作为微调的起点。微调模型的质量将取决于训练数据的质量和多样性。该数据集是作为硕士论文研究项目的一部分创建的。



