five

BaSalam/entity-attribute-dataset-GPT-3.5-generated-v1

收藏
Hugging Face2024-05-19 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/BaSalam/entity-attribute-dataset-GPT-3.5-generated-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Entity Attribute Dataset 306k (GPT-3.5生成)数据集设计用于指令微调,特别是基于产品标题生成结构化目录的JSON格式。数据集包含来自多个类别的产品,如食品、家居和厨房、服装、手工艺品、工具、汽车设备等。数据集的语言为波斯语(fa),包含一个训练集,数据字段包括instruction和output。数据集的创建目的是帮助生成结构化产品目录,适用于电子商务平台和库存管理。数据集是使用GPT-3.5基于专家提供的指令和指南生成的。

Entity Attribute Dataset 306k (GPT-3.5生成)数据集设计用于指令微调,特别是基于产品标题生成结构化目录的JSON格式。数据集包含来自多个类别的产品,如食品、家居和厨房、服装、手工艺品、工具、汽车设备等。数据集的语言为波斯语(fa),包含一个训练集,数据字段包括instruction和output。数据集的创建目的是帮助生成结构化产品目录,适用于电子商务平台和库存管理。数据集是使用GPT-3.5基于专家提供的指令和指南生成的。
提供机构:
BaSalam
原始信息汇总

数据集概述

基本信息

  • 名称: entity-attributes-GPT3.5-generated-306k-v1
  • 大小类别: 100K<n<1M
  • 许可: apache-2.0
  • 语言: 波斯语 (fa)
  • 任务类别:
    • 文本生成
    • 特征提取
    • 文本到文本生成

数据集结构

数据字段

  • instruction: 包含产品标题和描述的提示信息。
  • output: 包含产品实体和属性的JSON对象,格式为 {attributes: {attribute_name : <attribute value:str>, ...}, product_entity: <product entity:str>}

数据分割

  • 训练集:
    • 示例数量: 306325
    • 字节数: 306290188

数据集用途

  • 用于指令微调,特别是生成基于产品标题的结构化JSON格式目录。
  • 已用于微调模型,如Llama2-7b-entity-attr-v1

数据集创建

  • 目的: 协助生成结构化产品目录,适用于电子商务平台和库存管理。
  • 来源: 使用GPT-3.5根据专家提供的指令和指南生成。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作