five

BaSalam/entity-attribute-sft-dataset-GPT-4.0-generated-v1

收藏
Hugging Face2024-05-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/BaSalam/entity-attribute-sft-dataset-GPT-4.0-generated-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Entity Attribute SFT数据集(GPT-4.0生成)是一个为指令微调设计的机器生成数据集。它包含基于每个产品标题生成的详细产品信息,旨在创建结构化的JSON格式产品目录。数据集涵盖多种产品类别,如食品、家居和厨房、服装、手工艺品、工具、汽车设备等。数据集主要用于指令微调,已用于微调模型以提升其在监督微调阶段生成结构化产品目录的能力。数据集语言为波斯语(fa)。每个数据实例包括系统提示和产品数据,产品数据是一个包含产品结构化属性的JSON对象。数据集被分割为训练集和验证集,分别包含50,000和5,000个例子。原始数据是使用GPT-4.0生成的,以创建详细和结构化的产品信息。

The Entity Attribute SFT Dataset (generated by GPT-4.0) is a machine-generated dataset designed for instruction fine-tuning. It contains detailed product information generated based on individual product titles, with the goal of creating structured JSON-formatted product catalogs. The dataset covers a wide range of product categories, including food, home & kitchen, apparel, handicrafts, tools, automotive equipment, and more. It is primarily intended for instruction fine-tuning, and has been utilized to fine-tune models to improve their ability to generate structured product catalogs during the supervised fine-tuning stage. The dataset is in Persian (fa). Each data instance comprises a system prompt and product data, where the product data is a JSON object holding structured attributes of the corresponding product. The dataset is split into training and validation sets, with 50,000 and 5,000 examples respectively. The raw data was generated using GPT-4.0 to produce detailed and structured product information.
提供机构:
BaSalam
原始信息汇总

实体属性数据集 50k (GPT-4.0 生成)

数据集概述

实体属性 SFT 数据集 (GPT-4.0 生成) 是一个机器生成的数据集,旨在用于指令微调。它包括基于每个产品标题生成的详细产品信息,旨在创建一个结构化的 JSON 格式目录。该数据集涵盖了多种产品类别,如食品、家居厨房、服装、手工艺品、工具、汽车设备等。

使用

该数据集主要用于指令微调。它已被用于微调模型如 BaSalam/Llama2-7b-entity-attr-v2,以提高其在监督微调 (SFT) 阶段生成结构化产品目录的能力。与该数据集相关的代码仓库可以在 这里 找到。

语言

该数据集为波斯语 (fa)。

数据实例

数据集中的每个实例包括:

  • system_prompt: 模型使用的系统提示,包含产品的标题和描述。
  • product_data: 一个 JSON 对象,包含产品的结构化属性,格式为: attributes: {attribute_name : <list of attribute values: list>, ...}, product_entity: <list of product entities: list>}。产品实体列表包括从最详细到最通用的产品实体。

数据分割

数据集分为训练集和验证集:

  • 训练集:50,000 个样本
  • 验证集:5,000 个样本

原始数据

原始数据使用 GPT-4.0 生成,以创建详细和结构化的产品信息。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作