Mediform/sgd-sharegpt
收藏Hugging Face2024-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Mediform/sgd-sharegpt
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于schema_guided_dstc8数据集转换而来的ShareGPT格式数据集,旨在微调大型语言模型(LLMs)以处理任务导向的对话。数据集包含多个配置,如function_only、function_cot和function_cot_nlg,每个配置有不同的处理方式和输出格式。数据集的结构包括对话ID、服务、对话轮次、框架、状态、动作、服务结果和服务调用等特征。此外,数据集还提供了训练和测试集的大小、下载大小和数据集大小等信息。
This is a ShareGPT-format dataset converted from the schema_guided_dstc8 dataset, aimed at fine-tuning Large Language Models (LLMs) for task-oriented dialogue processing. The dataset includes multiple configurations such as function_only, function_cot and function_cot_nlg, each with distinct processing methods and output formats. The dataset structure includes features such as conversation ID, service, dialogue turns, framework, state, action, service results and service calls. In addition, the dataset provides information including the sizes of the training and test sets, download size and total dataset size.
提供机构:
Mediform
原始信息汇总
数据集概述
数据集名称
schema_guided_dstc8
数据集语言
英语(en)
数据集大小分类
10K < n < 100K
数据集来源
schema_guided_dstc8
数据集配置
-
function_cot
- 特征
dialogue_id: 字符串services: 字符串序列turns: 序列speaker: 类别标签(USER, SYSTEM)utterance: 字符串frames: 序列service: 字符串slots: 序列slot: 字符串start: 整数32位exclusive_end: 整数32位
state: 结构体active_intent: 字符串requested_slots: 字符串序列slot_values: 序列slot_name: 字符串slot_value_list: 字符串序列
actions: 序列act: 类别标签(AFFIRM, AFFIRM_INTENT, CONFIRM, GOODBYE, INFORM, INFORM_COUNT, INFORM_INTENT, NEGATE, NEGATE_INTENT, NOTIFY_FAILURE, NOTIFY_SUCCESS, OFFER, OFFER_INTENT, REQUEST, REQUEST_ALTS, REQ_MORE, SELECT, THANK_YOU)slot: 字符串canonical_values: 字符串序列values: 字符串序列
service_results: 序列service_results_list: 序列service_slot_name: 字符串service_canonical_value: 字符串
service_call: 结构体method: 字符串parameters: 序列parameter_slot_name: 字符串parameter_canonical_value: 字符串
- 分割
train: 399228786字节, 18624个样本test: 90489796字节, 4201个样本
- 下载大小: 74770692字节
- 数据集大小: 489718582字节
- 特征
-
function_cot_nlg
- 特征
dialogue_id: 字符串services: 字符串序列turns: 序列speaker: 类别标签(USER, SYSTEM)utterance: 字符串frames: 序列service: 字符串slots: 序列slot: 字符串start: 整数32位exclusive_end: 整数32位
state: 结构体active_intent: 字符串requested_slots: 字符串序列slot_values: 序列slot_name: 字符串slot_value_list: 字符串序列
actions: 序列act: 类别标签(AFFIRM, AFFIRM_INTENT, CONFIRM, GOODBYE, INFORM, INFORM_COUNT, INFORM_INTENT, NEGATE, NEGATE_INTENT, NOTIFY_FAILURE, NOTIFY_SUCCESS, OFFER, OFFER_INTENT, REQUEST, REQUEST_ALTS, REQ_MORE, SELECT, THANK_YOU)slot: 字符串canonical_values: 字符串序列values: 字符串序列
service_results: 序列service_results_list: 序列service_slot_name: 字符串service_canonical_value: 字符串
service_call: 结构体method: 字符串parameters: 序列parameter_slot_name: 字符串parameter_canonical_value: 字符串
- 分割
train: 413611739字节, 18624个样本test: 93800454字节, 4201个样本
- 下载大小: 83499083字节
- 数据集大小: 507412193字节
- 特征
-
no_user_action
- 特征
conversations: 列表from: 字符串value: 字符串
- 分割
train: 61638813.05410734字节, 7570个样本
- 下载大小: 5916553字节
- 数据集大小: 61638813.05410734字节
- 特征
-
only_function
- 特征
dialogue_id: 字符串services: 字符串序列turns: 序列speaker: 类别标签(USER, SYSTEM)utterance: 字符串frames: 序列service: 字符串slots: 序列slot: 字符串start: 整数32位exclusive_end: 整数32位
state: 结构体active_intent: 字符串requested_slots: 字符串序列slot_values: 序列slot_name: 字符串slot_value_list: 字符串序列
actions: 序列act: 类别标签(AFFIRM, AFFIRM_INTENT, CONFIRM, GOODBYE, INFORM, INFORM_COUNT, INFORM_INTENT, NEGATE, NEGATE_INTENT, NOTIFY_FAILURE, NOTIFY_SUCCESS, OFFER, OFFER_INTENT, REQUEST, REQUEST_ALTS, REQ_MORE, SELECT, THANK_YOU)slot: 字符串canonical_values: 字符串序列values: 字符串序列
service_results: 序列service_results_list: 序列service_slot_name: 字符串service_canonical_value: 字符串
service_call: 结构体method: 字符串parameters: 序列parameter_slot_name: 字符串parameter_canonical_value: 字符串
- 分割
train: 322401072字节, 18624个样本test: 73561762字节, 4201个样本
- 下载大小: 57534751字节
- 数据集大小: 395962834字节
- 特征
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



