five

Weni/wenigpt-agent-sft-1.0.5

收藏
Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Weni/wenigpt-agent-sft-1.0.5
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为wenigpt-agent-sft-1.0.5,主要用于训练葡萄牙语(巴西)的问答(QA)任务的监督微调(SFT)模型。数据集专注于智能代理的个性化偏好,允许在提示中使用特定指令,并为智能代理设定特定目标。数据集包含多个特征,如id、external_id、name、occupation、adjective、chatbot_goal、instructions、content、chunks_small、chunks_big、data_category、question和answer。数据集分为训练集,包含743个样本,总大小为11425507字节。此外,数据集在1.0.5版本中进行了改进,如增加了新的指令和chatbot_goal,并添加了120个经过人工审查的负面数据。

该数据集名为wenigpt-agent-sft-1.0.5,主要用于训练葡萄牙语(巴西)的问答(QA)任务的监督微调(SFT)模型。数据集专注于智能代理的个性化偏好,允许在提示中使用特定指令,并为智能代理设定特定目标。数据集包含多个特征,如id、external_id、name、occupation、adjective、chatbot_goal、instructions、content、chunks_small、chunks_big、data_category、question和answer。数据集分为训练集,包含743个样本,总大小为11425507字节。此外,数据集在1.0.5版本中进行了改进,如增加了新的指令和chatbot_goal,并添加了120个经过人工审查的负面数据。
提供机构:
Weni
原始信息汇总

数据集概述

名称: wenigpt-agent-sft-1.0.5

语言: 葡萄牙语(巴西)

目的: 用于训练监督式微调(SFT)模型,专注于葡萄牙语巴西地区的问答(QA)任务,特别关注代理个性偏好的变化、特定提示指令的使用以及智能代理的具体目标设定。

数据集特征

  • id: 整数类型
  • external_id: 整数类型,原始数据集的原始ID
  • name: 字符串类型,模型使用的名称
  • occupation: 字符串类型,提供给模型的职业或专业信息,以个性化回复
  • adjective: 字符串类型,提供给模型的形容词,以遵循特定个性
  • chatbot_goal: 字符串类型,代理的具体目标,具有大小和词汇熵的变化
  • instructions: 序列字符串类型,提供给代理的特定指令,以塑造回复
  • content: 字符串类型,语义搜索可访问的完整上下文
  • chunks_small: 列表类型,包含字符串类型的内容和浮点数类型的分数,通过语义搜索提取的上下文部分
  • chunks_big: 列表类型,包含字符串类型的内容和浮点数类型的分数,通过语义搜索提取的上下文部分
  • data_category: 整数类型,数据类别,包括正面的、负面的和敏感的
  • question: 字符串类型,向模型提出的问题
  • answer: 字符串类型,根据chunk_big内容提供的最终答案

数据集版本更新

  • 1.0.5版本改进:
    • instructions: 根据日志研究新增指令,改进了大小、词汇熵和节奏流畅性的多样性
    • chatbot_goal: 新增chatbot_goal列,改进了大小和词汇熵分布,接近模型使用日志中的相应指数
    • answer: 与新指令和chatbot_goal对齐的新生成答案

数据集使用

  • 应用: 适用于训练语言模型,用于QA任务,具有不同个性和目标,确保用户上下文下的适当和适应性回复。可用于虚拟助手、客户服务聊天机器人等多种应用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作