Weni/wenigpt-agent-sft-1.0.4
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Weni/wenigpt-agent-sft-1.0.4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为训练巴西葡萄牙语的监督微调(SFT)模型而创建的,专注于问答(QA)任务。数据集专门用于改变代理的个性化偏好,允许在提示中使用特定指令,并定义智能代理的特定目标。版本1.0.4相较于之前版本有显著改进,包括对所有正类回答进行人工审查,并增加了聊天机器人目标列的变异性。数据集包含多个属性,如外部ID、名称、职业、形容词、聊天机器人目标、指令、内容、小片段、大片段、数据类别、问题和答案。该数据集适用于训练具有不同个性和目标的语言模型,确保回答适应用户的上下文。
该数据集是为训练巴西葡萄牙语的监督微调(SFT)模型而创建的,专注于问答(QA)任务。数据集专门用于改变代理的个性化偏好,允许在提示中使用特定指令,并定义智能代理的特定目标。版本1.0.4相较于之前版本有显著改进,包括对所有正类回答进行人工审查,并增加了聊天机器人目标列的变异性。数据集包含多个属性,如外部ID、名称、职业、形容词、聊天机器人目标、指令、内容、小片段、大片段、数据类别、问题和答案。该数据集适用于训练具有不同个性和目标的语言模型,确保回答适应用户的上下文。
提供机构:
Weni
原始信息汇总
数据集概述
数据集名称
- 名称: wenigpt-agent-sft-1.0.4
数据集描述
- 目的: 用于监督式微调(SFT)模型的训练,专注于巴西葡萄牙语的问答任务。
- 特点: 专注于变化代理的个性偏好,允许在提示中使用特定指令,并为智能代理定义特定目标。
- 版本改进: 版本1.0.4相较于前一版本有显著改进,包括所有正面回答的人工审查和chatbot目标列的更大变异性。
数据集属性
- id: 整数类型
- external_id: 整数类型,原始数据集的ID
- name: 字符串类型,模型使用的名称
- occupation: 字符串类型,提供给模型的职业或专业信息
- adjective: 字符串类型,提供给模型的形容词,以遵循特定个性
- chatbot_goal: 字符串类型,代理的特定目标,具有大小和词汇熵的变化
- instructions: 序列类型,提供给代理的特定指令
- content: 字符串类型,语义搜索可访问的完整上下文
- chunks_small: 列表类型,包含字符串类型的内容和浮点数类型的分数
- chunks_big: 列表类型,包含字符串类型的内容和浮点数类型的分数
- data_category: 整数类型,数据类别,包括正面、负面和敏感数据
- question: 字符串类型,对模型的提问
- answer: 字符串类型,根据chunk_big内容回答的问题答案
数据集大小
- 训练集: 743个样本,11310711字节
- 下载大小: 2979552字节
- 数据集总大小: 11310711字节
版本更新
- 人工审查: 所有分类为正面的回答(data_category = 1)都经过了人工审查。
- chatbot目标的变异性: chatbot_goal列已改进,以包含更大的大小变异和更接近实际使用模型的测量。
- 数据添加: 从wenigpt-agent-1.4.0数据集中提取并人工审查的120个负面数据已添加。
应用场景
- 用途: 适用于训练语言模型进行具有不同个性和目标的QA任务,确保适应用户上下文的适当回答。
- 应用: 可用于从虚拟助手到客户服务聊天机器人的多种应用。



