five

bitext/Bitext-retail-banking-llm-chatbot-training-dataset

收藏
Hugging Face2024-07-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/bitext/Bitext-retail-banking-llm-chatbot-training-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集专为训练大型语言模型(如GPT、Llama3和Mistral)而设计,特别针对零售银行业务的微调和领域适应。它包含25545个问答对,涉及26种意图,分配给9个类别,并涵盖1224种实体/槽类型和12种语言生成标签。数据集包含4.98百万个令牌,用于训练能够执行对话AI、问答和银行领域虚拟助手任务的复杂LLM。每个数据集条目包括标签、用户请求、意图的高级语义类别、特定意图以及虚拟助手的预期响应。此外,数据集还包括各种语言变体和风格的标签,以增强模型的鲁棒性和多功能性,确保模型能够理解和生成适合零售银行业务不同客户交互的各种会话风格。

该数据集专为训练大型语言模型(如GPT、Llama3和Mistral)而设计,特别针对零售银行业务的微调和领域适应。它包含25545个问答对,涉及26种意图,分配给9个类别,并涵盖1224种实体/槽类型和12种语言生成标签。数据集包含4.98百万个令牌,用于训练能够执行对话AI、问答和银行领域虚拟助手任务的复杂LLM。每个数据集条目包括标签、用户请求、意图的高级语义类别、特定意图以及虚拟助手的预期响应。此外,数据集还包括各种语言变体和风格的标签,以增强模型的鲁棒性和多功能性,确保模型能够理解和生成适合零售银行业务不同客户交互的各种会话风格。
提供机构:
bitext
原始信息汇总

数据集概述

名称: Bitext - Retail Banking Tagged Training Dataset for LLM-based Virtual Assistants

目的: 用于训练大型语言模型(如GPT、Llama3、Mistral),专注于零售银行业务的微调和领域适应。

规格:

  • 使用案例: 意图检测
  • 垂直领域: 零售银行
  • 意图和类别: 26个意图,分配给9个类别
  • 数据量: 25545个问答对,约1000个问答对/意图
  • 实体/槽类型: 1224种
  • 语言生成标签类型: 12种

数据集大小: 包含4.98百万个token,分布在instruction和response列中。

数据集字段

  • flags: 标签
  • instruction: 来自零售银行领域的用户请求
  • category: 意图的高级语义类别
  • intent: 对应于用户指令的具体意图
  • response: 虚拟助手预期响应的示例

类别和意图

  • ACCOUNT: 检查最近交易, 关闭账户, 创建账户
  • ATM: 争议ATM取款, 恢复吞卡
  • CARD: 激活卡, 激活国际使用卡, 阻止卡, 取消卡, 检查卡年费, 检查当前卡余额
  • CONTACT: 客户服务, 人工代理
  • FEES: 检查费用
  • FIND: 查找ATM, 查找分行
  • LOAN: 申请贷款, 申请抵押, 取消贷款, 取消抵押, 检查贷款付款, 检查抵押付款
  • PASSWORD: 获取密码, 设置密码
  • TRANSFER: 取消转账, 进行转账

实体

  • {{Full Name}}
  • {{Banking App}}
  • {{Account Number}}
  • {{Customer Support Working Hours}}
  • {{Customer Support Team}}
  • {{Company Website URL}}
  • {{Customer Support}}
  • {{Customer Support Email}}
  • {{Mortgage Account Number}}
  • {{Mortgage Account}}
  • {{Billing}}
  • {{Username}}
  • {{Customer Support Phone Number}}
  • {{Live Chat}}
  • {{Company Website}}
  • {{Mortgage Department}}
  • {{Account}}
  • {{Name}}
  • {{Bank Name}}
  • {{Password}}
  • {{Customer Support Email Address}}
  • {{Customer Service Email Address}}
  • {{Email Address}}
  • {{Profile}}
  • {{Customer Service Working Hours}}
  • {{Credit Card}}
  • {{Bank App}}
  • {{Loan Account Number}}
  • {{Account Settings}}

语言生成标签

  • M - Morphological variation
  • L - Semantic variations
  • B - Basic syntactic structure
  • I - Interrogative structure
  • C - Coordinated syntactic structure
  • N - Negation
  • P - Politeness variation
  • Q - Colloquial variation
  • W - Offensive language
  • K - Keyword mode
  • E - Use of abbreviations
  • Z - Errors and Typos

许可证

许可证: Community Data License Agreement (CDLA) Sharing 1.0

关键条款:

  • 归属和共享: 用户必须归属数据集并继续以相同许可证共享衍生作品。
  • 非独占性: 许可证是非独占的,允许多个用户同时使用数据。
  • 不可撤销性: 除非严重不遵守,否则此许可证下的权利是不可撤销的。
  • 无保证: 数据集按原样提供,不保证其准确性、完整性或适合特定目的。
  • 责任限制: 用户和数据提供者均限制因使用数据集而产生的损害责任。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作