SHDL_Dataset

Hugging Face2024-12-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/AaronLim/SHDL_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为微调大型语言模型（如GPT、Mistral和OpenELM）而设计的，专门用于多媒体大学（MMU）和Siti Hasmah数字图书馆的上下文任务。数据集的目标是通过微调通用LLM并结合额外的机构数据，帮助机构创建定制的虚拟助手。数据集包含26872个问题/答案对，涵盖5个高层次类别和15个具体意图，涉及图书馆、招生、课程信息和奖学金等。每个条目包括标志、指令、类别、意图和响应字段。数据集还支持多种语言现象的定制，如形态变化、口语化语言和礼貌变化。

This dataset is designed for fine-tuning large language models (such as GPT, Mistral, and OpenELM), specifically for contextual tasks of Multimedia University (MMU) and Siti Hasmah Digital Library. The goal of this dataset is to assist institutions in creating customized virtual assistants by fine-tuning general LLMs and incorporating additional institutional data. This dataset contains 26,872 question/answer pairs, covering 5 high-level categories and 15 specific intents, involving library services, admissions, course information, scholarships, and other related areas. Each entry includes fields such as flag, instruction, category, intent, and response. The dataset also supports customization for various linguistic phenomena, such as morphological variations, colloquial language, and politeness adjustments.

创建时间：

2024-12-05

原始信息汇总

SHDL - Students Service Tagged Training Dataset for LLM-based Virtual Assistants

概述

该数据集专为微调大型语言模型（LLMs）如GPT、Mistral和OpenELM而设计，用于多媒体大学（MMU）和Siti Hasmah数字图书馆的上下文任务。数据集旨在解决与MMU服务、招生、奖学金和图书馆运营相关的用户交互。

数据集目标

促进领域适应，使MMU等机构能够创建定制的虚拟助手。通过使用此数据集微调通用LLM，并进一步使用额外的机构数据进行定制。

数据集规格

用例: 意图检测
垂直领域: 教育和数字图书馆服务
意图: 5个高级类别，包含15个具体意图
数据量: 26872个问答对，每个意图约1000个
标签: 语言变体，用于上下文和风格定制

数据集字数

数据集包含超过357万个标记，分布在指令和响应列中。

数据集字段

每个条目包含以下字段：

flags: 标记语言现象或上下文变体
instruction: 与MMU和Siti Hasmah数字图书馆服务相关的用户查询
category: 高级类别，如Library、Admissions、Course Info或Scholarships
intent: 每个类别中的具体意图
response: 虚拟助手的建议响应

类别和意图

数据集包含以下类别和意图：

LIBRARY:
- access_info: 如何访问Siti Hasmah图书馆？
- opening_hours: 图书馆的开放时间是什么？
ADMISSION:
- admission_application: 如何申请MMU的入学？
COURSE_INFO:
- course_fees_query: 我对MMU课程费用有疑问。
SCHOLARSHIP:
- scholarship_application: 如何在MMU申请奖学金？

实体

数据集包含用于个性化和泛化的上下文占位符：

{{Library Name}}: 例如，Siti Hasmah数字图书馆
{{University Name}}: 例如，多媒体大学
{{Program Name}}: 与课程或奖学金意图相关
{{Date}}: 通常出现在opening_hours或admission时间线中
{{Fees}}: 特定于course_fees_query

语言生成标签

数据集支持多种语言现象以进行定制：

M: 形态变体，如“accessing library” vs. “access library”
Q: 口语化语言，如“how do I get into the library?” vs. “how do I access the library?”
P: 礼貌变体，如“Could you tell me the librarys hours, please?”

示例数据集条目

Flags	Instruction	Category	Intent	Response
MM	How do I access the Siti Hasmah Library?	LIBRARY	access_info	You can access the Siti Hasmah Digital Library through MMUs online portal.
MMF	What are the opening hours of MMU Library?	LIBRARY	opening_hours	The MMU library is open from 9 AM to 8 PM on weekdays.
MSC	How to apply for a scholarship at MMU?	SCHOLARSHIP	scholarship_application	To apply for scholarships at MMU, check the scholarships section on our website

搜集汇总

数据集介绍

构建方式

SHDL_Dataset的构建旨在为大型语言模型（LLMs）如GPT、Mistral和OpenELM提供精细调整的数据支持，以应对多媒体大学（MMU）和Siti Hasmah数字图书馆的用户交互需求。该数据集通过收集与MMU服务、招生、奖学金及图书馆运营相关的真实查询和精心设计的响应，形成了26872个问题/答案对，每个意图约1000个样本。此外，数据集还包含了语言学变体标签，以支持上下文和风格的自定义，确保模型能够适应多样化的用户群体。

特点

SHDL_Dataset的显著特点在于其高度专业化和领域适应性。数据集不仅涵盖了5个高层次类别和15个具体意图，还通过语言生成标签（如形态变体、口语化语言和礼貌变体）增强了模型的表达能力。此外，数据集中的上下文占位符（如图书馆名称、大学名称等）进一步提升了个性化响应的准确性。这些特性使得该数据集成为训练虚拟助手以应对教育及数字图书馆服务的理想选择。

使用方法

SHDL_Dataset主要用于大型语言模型的微调，以创建针对多媒体大学和Siti Hasmah数字图书馆服务的虚拟助手。使用者可以通过加载数据集中的问题/答案对，结合语言生成标签和上下文占位符，进行模型的训练和优化。具体操作包括将数据集分为训练集和验证集，利用深度学习框架（如PyTorch或TensorFlow）进行模型训练，并通过评估指标（如准确率、F1分数）来衡量模型的性能。

背景与挑战

背景概述

SHDL_Dataset，全称为Students Service Tagged Training Dataset for LLM-based Virtual Assistants，是由Multimedia University（MMU）与Siti Hasmah Digital Library合作开发的专业数据集。该数据集旨在通过微调大型语言模型（LLMs）如GPT、Mistral和OpenELM，以适应多媒体大学及其数字图书馆的具体服务需求。创建于近期，该数据集的核心研究问题聚焦于如何通过领域适应技术，提升虚拟助手在教育及数字图书馆服务中的交互效率与准确性。其主要研究人员及机构通过精心设计的问答对，涵盖了入学申请、奖学金、课程信息及图书馆操作等多个高层次类别，共计26,872对问答，每类约1,000对，确保了数据的相关性与精确性。此数据集的推出，不仅为教育机构提供了定制化虚拟助手的解决方案，也对推动自然语言处理技术在教育领域的应用具有深远影响。

当前挑战

SHDL_Dataset在构建与应用过程中面临多项挑战。首先，数据集需解决的领域问题是教育与数字图书馆服务中的意图识别，这要求数据集能够准确捕捉并分类用户的多样化查询。其次，构建过程中，研究人员需处理大量真实世界查询与精心设计的响应，确保每对问答的关联性与准确性，这是一项耗时且需高度专业知识的工作。此外，数据集还需支持语言生成中的多种变体，如形态变化、口语化表达及礼貌性差异，以适应不同用户群体的需求，这增加了数据集的复杂性与训练难度。最后，如何在有限的资源下，高效地微调大型语言模型，以实现最佳的领域适应效果，也是该数据集面临的一大挑战。

常用场景

经典使用场景

SHDL_Dataset 的经典使用场景主要集中在为多媒体大学（MMU）及其 Siti Hasmah 数字图书馆定制基于大型语言模型（LLM）的虚拟助手。通过该数据集，研究者和开发者能够对通用 LLM 进行微调，使其能够准确处理与 MMU 服务、入学申请、奖学金和图书馆运营相关的用户查询。这种定制化的虚拟助手能够有效提升用户交互体验，特别是在教育和服务领域。

衍生相关工作

SHDL_Dataset 的发布催生了一系列相关研究和工作，特别是在教育领域的虚拟助手定制化方面。研究者们利用该数据集进行模型微调，探索如何更有效地处理特定领域的查询，并进一步优化虚拟助手的性能。此外，该数据集还激发了对语言模型在教育和服务领域应用的深入研究，推动了相关技术和方法的发展。

数据集最近研究