five

Mediform/sgd-sharegpt

收藏
Hugging Face2024-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Mediform/sgd-sharegpt
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于schema_guided_dstc8数据集转换而来的ShareGPT格式数据集,旨在微调大型语言模型(LLMs)以处理任务导向的对话。数据集包含多个配置,如function_only、function_cot和function_cot_nlg,每个配置有不同的处理方式和输出格式。数据集的结构包括对话ID、服务、对话轮次、框架、状态、动作、服务结果和服务调用等特征。此外,数据集还提供了训练和测试集的大小、下载大小和数据集大小等信息。

This is a ShareGPT-format dataset converted from the schema_guided_dstc8 dataset, aimed at fine-tuning Large Language Models (LLMs) for task-oriented dialogue processing. The dataset includes multiple configurations such as function_only, function_cot and function_cot_nlg, each with distinct processing methods and output formats. The dataset structure includes features such as conversation ID, service, dialogue turns, framework, state, action, service results and service calls. In addition, the dataset provides information including the sizes of the training and test sets, download size and total dataset size.
提供机构:
Mediform
原始信息汇总

数据集概述

数据集名称

schema_guided_dstc8

数据集语言

英语(en)

数据集大小分类

10K < n < 100K

数据集来源

schema_guided_dstc8

数据集配置

  • function_cot

    • 特征
      • dialogue_id: 字符串
      • services: 字符串序列
      • turns: 序列
        • speaker: 类别标签(USER, SYSTEM)
        • utterance: 字符串
        • frames: 序列
          • service: 字符串
          • slots: 序列
            • slot: 字符串
            • start: 整数32位
            • exclusive_end: 整数32位
          • state: 结构体
            • active_intent: 字符串
            • requested_slots: 字符串序列
            • slot_values: 序列
              • slot_name: 字符串
              • slot_value_list: 字符串序列
          • actions: 序列
            • act: 类别标签(AFFIRM, AFFIRM_INTENT, CONFIRM, GOODBYE, INFORM, INFORM_COUNT, INFORM_INTENT, NEGATE, NEGATE_INTENT, NOTIFY_FAILURE, NOTIFY_SUCCESS, OFFER, OFFER_INTENT, REQUEST, REQUEST_ALTS, REQ_MORE, SELECT, THANK_YOU)
            • slot: 字符串
            • canonical_values: 字符串序列
            • values: 字符串序列
          • service_results: 序列
            • service_results_list: 序列
              • service_slot_name: 字符串
              • service_canonical_value: 字符串
          • service_call: 结构体
            • method: 字符串
            • parameters: 序列
              • parameter_slot_name: 字符串
              • parameter_canonical_value: 字符串
    • 分割
      • train: 399228786字节, 18624个样本
      • test: 90489796字节, 4201个样本
    • 下载大小: 74770692字节
    • 数据集大小: 489718582字节
  • function_cot_nlg

    • 特征
      • dialogue_id: 字符串
      • services: 字符串序列
      • turns: 序列
        • speaker: 类别标签(USER, SYSTEM)
        • utterance: 字符串
        • frames: 序列
          • service: 字符串
          • slots: 序列
            • slot: 字符串
            • start: 整数32位
            • exclusive_end: 整数32位
          • state: 结构体
            • active_intent: 字符串
            • requested_slots: 字符串序列
            • slot_values: 序列
              • slot_name: 字符串
              • slot_value_list: 字符串序列
          • actions: 序列
            • act: 类别标签(AFFIRM, AFFIRM_INTENT, CONFIRM, GOODBYE, INFORM, INFORM_COUNT, INFORM_INTENT, NEGATE, NEGATE_INTENT, NOTIFY_FAILURE, NOTIFY_SUCCESS, OFFER, OFFER_INTENT, REQUEST, REQUEST_ALTS, REQ_MORE, SELECT, THANK_YOU)
            • slot: 字符串
            • canonical_values: 字符串序列
            • values: 字符串序列
          • service_results: 序列
            • service_results_list: 序列
              • service_slot_name: 字符串
              • service_canonical_value: 字符串
          • service_call: 结构体
            • method: 字符串
            • parameters: 序列
              • parameter_slot_name: 字符串
              • parameter_canonical_value: 字符串
    • 分割
      • train: 413611739字节, 18624个样本
      • test: 93800454字节, 4201个样本
    • 下载大小: 83499083字节
    • 数据集大小: 507412193字节
  • no_user_action

    • 特征
      • conversations: 列表
        • from: 字符串
        • value: 字符串
    • 分割
      • train: 61638813.05410734字节, 7570个样本
    • 下载大小: 5916553字节
    • 数据集大小: 61638813.05410734字节
  • only_function

    • 特征
      • dialogue_id: 字符串
      • services: 字符串序列
      • turns: 序列
        • speaker: 类别标签(USER, SYSTEM)
        • utterance: 字符串
        • frames: 序列
          • service: 字符串
          • slots: 序列
            • slot: 字符串
            • start: 整数32位
            • exclusive_end: 整数32位
          • state: 结构体
            • active_intent: 字符串
            • requested_slots: 字符串序列
            • slot_values: 序列
              • slot_name: 字符串
              • slot_value_list: 字符串序列
          • actions: 序列
            • act: 类别标签(AFFIRM, AFFIRM_INTENT, CONFIRM, GOODBYE, INFORM, INFORM_COUNT, INFORM_INTENT, NEGATE, NEGATE_INTENT, NOTIFY_FAILURE, NOTIFY_SUCCESS, OFFER, OFFER_INTENT, REQUEST, REQUEST_ALTS, REQ_MORE, SELECT, THANK_YOU)
            • slot: 字符串
            • canonical_values: 字符串序列
            • values: 字符串序列
          • service_results: 序列
            • service_results_list: 序列
              • service_slot_name: 字符串
              • service_canonical_value: 字符串
          • service_call: 结构体
            • method: 字符串
            • parameters: 序列
              • parameter_slot_name: 字符串
              • parameter_canonical_value: 字符串
    • 分割
      • train: 322401072字节, 18624个样本
      • test: 73561762字节, 4201个样本
    • 下载大小: 57534751字节
    • 数据集大小: 395962834字节
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作