BaSalam/entity-attribute-dataset-GPT-3.5-generated-v1
收藏Hugging Face2024-05-19 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/BaSalam/entity-attribute-dataset-GPT-3.5-generated-v1
下载链接
链接失效反馈官方服务:
资源简介:
Entity Attribute Dataset 306k (GPT-3.5生成)数据集设计用于指令微调,特别是基于产品标题生成结构化目录的JSON格式。数据集包含来自多个类别的产品,如食品、家居和厨房、服装、手工艺品、工具、汽车设备等。数据集的语言为波斯语(fa),包含一个训练集,数据字段包括instruction和output。数据集的创建目的是帮助生成结构化产品目录,适用于电子商务平台和库存管理。数据集是使用GPT-3.5基于专家提供的指令和指南生成的。
Entity Attribute Dataset 306k (GPT-3.5生成)数据集设计用于指令微调,特别是基于产品标题生成结构化目录的JSON格式。数据集包含来自多个类别的产品,如食品、家居和厨房、服装、手工艺品、工具、汽车设备等。数据集的语言为波斯语(fa),包含一个训练集,数据字段包括instruction和output。数据集的创建目的是帮助生成结构化产品目录,适用于电子商务平台和库存管理。数据集是使用GPT-3.5基于专家提供的指令和指南生成的。
提供机构:
BaSalam
原始信息汇总
数据集概述
基本信息
- 名称: entity-attributes-GPT3.5-generated-306k-v1
- 大小类别: 100K<n<1M
- 许可: apache-2.0
- 语言: 波斯语 (
fa) - 任务类别:
- 文本生成
- 特征提取
- 文本到文本生成
数据集结构
数据字段
- instruction: 包含产品标题和描述的提示信息。
- output: 包含产品实体和属性的JSON对象,格式为
{attributes: {attribute_name : <attribute value:str>, ...}, product_entity: <product entity:str>}。
数据分割
- 训练集:
- 示例数量: 306325
- 字节数: 306290188
数据集用途
- 用于指令微调,特别是生成基于产品标题的结构化JSON格式目录。
- 已用于微调模型,如Llama2-7b-entity-attr-v1。
数据集创建
- 目的: 协助生成结构化产品目录,适用于电子商务平台和库存管理。
- 来源: 使用GPT-3.5根据专家提供的指令和指南生成。



