islam-hajosman/deutsche_bahn_faq_Llama_3_template_1k
收藏Hugging Face2024-06-10 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/islam-hajosman/deutsche_bahn_faq_Llama_3_template_1k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1000个从德国铁路(Deutsche Bahn)官方FAQ部分提取的问题-答案对,专门格式化为与Llama 3 instruct模型兼容,用于监督微调(SFT)。数据集的主要目的是促进Llama 3 instruct模型在德国铁路服务领域的客户服务和信息检索任务中的微调。每个样本遵循Llama 3 instruct格式,包括系统消息、用户消息和助手消息。数据集最初是从德国铁路网站抓取的,然后手动清理和过滤以确保质量和相关性,并使用自定义Python脚本应用Llama 3格式。
该数据集包含1000个从德国铁路(Deutsche Bahn)官方FAQ部分提取的问题-答案对,专门格式化为与Llama 3 instruct模型兼容,用于监督微调(SFT)。数据集的主要目的是促进Llama 3 instruct模型在德国铁路服务领域的客户服务和信息检索任务中的微调。每个样本遵循Llama 3 instruct格式,包括系统消息、用户消息和助手消息。数据集最初是从德国铁路网站抓取的,然后手动清理和过滤以确保质量和相关性,并使用自定义Python脚本应用Llama 3格式。
提供机构:
islam-hajosman
原始信息汇总
数据集概述
数据集名称
Deutsche Bahn FAQ in Llama 3 Format
数据集描述
该数据集包含1000个从德国铁路(Deutsche Bahn)官方FAQ部分提取的问题-答案对。数据已专门格式化为与Llama 3 instruct模型兼容,用于监督微调(SFT)。
数据集目的
该数据集的主要目的是促进Llama 3 instruct模型在德国铁路服务领域中与客户服务和信息检索相关的任务的微调。
数据集结构
每个样本遵循Llama 3 instruct格式,包括:
- 系统消息:为模型提供上下文(“您是德国铁路客户服务的AI助手。”)
- 用户消息:代表客户的问题。
- 助手消息:代表AI助手的理想答案。
数据集创建
数据最初从德国铁路网站(https://www.bahn.de/faq/pk)抓取,然后手动清理和过滤以确保质量和相关性。使用自定义Python脚本应用Llama 3格式。
潜在用途
- 微调Llama 3 instruct模型用于客户服务聊天机器人或德国铁路领域的问题回答系统。
- 教育目的,展示LLM的SFT过程。
附加说明
- 该数据集是完整德国铁路FAQ的子集,旨在作为微调的起点。
- 微调模型的质量将取决于训练数据的质量和多样性。
- 该数据集是作为硕士论文研究项目的一部分创建的。
数据集信息
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 726287
- 样本数: 1000
- 下载大小: 208607
- 数据集大小: 726287
- 配置:
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 任务类别:
- text-generation
- 语言:
- de
- 大小类别:
- n<1K
- 许可证: apache-2.0



