five

Weni/wenigpt-agent-sft-1.0.4

收藏
Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Weni/wenigpt-agent-sft-1.0.4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为训练巴西葡萄牙语的监督微调(SFT)模型而创建的,专注于问答(QA)任务。数据集专门用于改变代理的个性化偏好,允许在提示中使用特定指令,并定义智能代理的特定目标。版本1.0.4相较于之前版本有显著改进,包括对所有正类回答进行人工审查,并增加了聊天机器人目标列的变异性。数据集包含多个属性,如外部ID、名称、职业、形容词、聊天机器人目标、指令、内容、小片段、大片段、数据类别、问题和答案。该数据集适用于训练具有不同个性和目标的语言模型,确保回答适应用户的上下文。

该数据集是为训练巴西葡萄牙语的监督微调(SFT)模型而创建的,专注于问答(QA)任务。数据集专门用于改变代理的个性化偏好,允许在提示中使用特定指令,并定义智能代理的特定目标。版本1.0.4相较于之前版本有显著改进,包括对所有正类回答进行人工审查,并增加了聊天机器人目标列的变异性。数据集包含多个属性,如外部ID、名称、职业、形容词、聊天机器人目标、指令、内容、小片段、大片段、数据类别、问题和答案。该数据集适用于训练具有不同个性和目标的语言模型,确保回答适应用户的上下文。
提供机构:
Weni
原始信息汇总

数据集概述

数据集名称

  • 名称: wenigpt-agent-sft-1.0.4

数据集描述

  • 目的: 用于监督式微调(SFT)模型的训练,专注于巴西葡萄牙语的问答任务。
  • 特点: 专注于变化代理的个性偏好,允许在提示中使用特定指令,并为智能代理定义特定目标。
  • 版本改进: 版本1.0.4相较于前一版本有显著改进,包括所有正面回答的人工审查和chatbot目标列的更大变异性。

数据集属性

  • id: 整数类型
  • external_id: 整数类型,原始数据集的ID
  • name: 字符串类型,模型使用的名称
  • occupation: 字符串类型,提供给模型的职业或专业信息
  • adjective: 字符串类型,提供给模型的形容词,以遵循特定个性
  • chatbot_goal: 字符串类型,代理的特定目标,具有大小和词汇熵的变化
  • instructions: 序列类型,提供给代理的特定指令
  • content: 字符串类型,语义搜索可访问的完整上下文
  • chunks_small: 列表类型,包含字符串类型的内容和浮点数类型的分数
  • chunks_big: 列表类型,包含字符串类型的内容和浮点数类型的分数
  • data_category: 整数类型,数据类别,包括正面、负面和敏感数据
  • question: 字符串类型,对模型的提问
  • answer: 字符串类型,根据chunk_big内容回答的问题答案

数据集大小

  • 训练集: 743个样本,11310711字节
  • 下载大小: 2979552字节
  • 数据集总大小: 11310711字节

版本更新

  • 人工审查: 所有分类为正面的回答(data_category = 1)都经过了人工审查。
  • chatbot目标的变异性: chatbot_goal列已改进,以包含更大的大小变异和更接近实际使用模型的测量。
  • 数据添加: 从wenigpt-agent-1.4.0数据集中提取并人工审查的120个负面数据已添加。

应用场景

  • 用途: 适用于训练语言模型进行具有不同个性和目标的QA任务,确保适应用户上下文的适当回答。
  • 应用: 可用于从虚拟助手到客户服务聊天机器人的多种应用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作