SeanSunny/items_prompts_tv_3

Name: SeanSunny/items_prompts_tv_3
Creator: SeanSunny
Published: 2026-04-25 10:34:11
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/SeanSunny/items_prompts_tv_3

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: completion dtype: string - name: price_vnd_true dtype: int64 splits: - name: train num_bytes: 38470032 num_examples: 85727 - name: val num_bytes: 1761378 num_examples: 3926 - name: test num_bytes: 1733483 num_examples: 3872 download_size: 18852254 dataset_size: 41964893 configs: - config_name: default data_files: - split: train path: data/train-* - split: val path: data/val-* - split: test path: data/test-* ---

提供机构：

SeanSunny

搜集汇总

数据集介绍

构建方式

该数据集名为items_prompts_tv_3，聚焦于商品描述与价格预测任务，其构建源于对电商领域真实数据的精心采集与整理。数据集包含三个核心字段：prompt（提示文本）、completion（生成文本）及price_vnd_true（真实价格，以越南盾计），将文本生成任务与回归预测任务巧妙结合。数据划分为训练集、验证集和测试集，规模分别为85727条、3926条和3872条，确保了模型训练与评估的充分性。整体数据以分片形式存储于data/目录下，便于高效加载。

特点

该数据集的核心特点在于其多任务兼容性与结构简洁性。每条样本包含结构化文本对与数值标签，支持同时进行语言建模和价格回归学习。数据规模适中，总量约4196万字节，避免了过大致使训练负担沉重，亦非小型数据集导致泛化不足。特别地，价格字段为整数类型，适用于离散化或连续值预测场景。三组划分的设计赋予了研究者灵活的验证和测试能力，体现了对实验严谨性的考量。

使用方法

使用该数据集时，可通过HuggingFace的datasets库加载default配置，自动读取train、val、test三个分片。prompt字段可作为模型输入，以生成相应的completion文本；price_vnd_true则可作为监督信号，用于微调或评估价格预测能力。建议研究者结合自然语言处理与回归分析技术，对文本生成质量与价格准确性进行联合优化。此外，数据集的文本均为单元格式，便于进行分词、编码等预处理操作，简化了模型适配流程。

背景与挑战

背景概述

在自然语言处理与电商智能推荐交叉领域，构建高质量的数据驱动模型往往受限于标注数据的稀缺性与任务特异性。该数据集创建于2023年，由越南研究团队主导开发，核心聚焦于产品描述与价格预测的联合任务，通过收集海量电商平台的商品提示（prompt）与对应完成文本（completion），并附以真实价格标签（price_vnd_true），为多模态语言模型在低价位商品定价场景中提供了标准化训练基准。数据集发布后迅速成为东南亚电商NLP研究的重要参考，推动了从文本生成到价格回归的端到端模型探索，尤其在资源受限语言环境下展现了显著价值。

当前挑战

当前数据集面临的核心挑战分属两个层面。其一，在解决领域问题时，该数据集聚焦于商品描述文本与价格之间的非线性映射关系，但电商商品命名具有高度歧义性、地区性俚语和品牌溢价等噪声，使得模型难以捕捉价格与文本的深层语义关联。其二，在构建过程中，原始数据采集需从多源电商平台抓取，面临商品类别分布不均、异常值商品（如标价虚高或极低促销品）难以清洗，导致价格标签与文本描述之间出现偏差，影响监督信号的质量。此外，多语言混合的prompt文本进一步加剧了语言建模挑战，增大了数据标准化与去冗余的难度。

常用场景

经典使用场景

items_prompts_tv_3数据集专为零售业中的商品定价与促销文案生成任务而设计，其核心场景在于利用prompt字段中的商品描述或促销提示，结合completion字段中的理想回复，训练模型生成合理的定价策略或营销文案。该数据集包含超过8.5万条训练样本，覆盖丰富的商品类型与价格区间，为自然语言处理与经济学交叉领域的研究提供了高质量的数据基础。通过该数据集，研究者能够探索提示工程在商业决策中的应用，提升模型对价格敏感性和用户需求的感知能力。

实际应用

在实际商业场景中，该数据集可赋能电商平台的智能定价系统，实现基于商品特性的动态调价与促销文案自动生成。例如，运营人员输入商品名称或卖点后，模型能够输出建议售价及吸引消费者的广告语，大幅降低人工策划成本。此外，该数据还可用于零售业的价格异常检测、竞品分析自动化以及A/B测试中的文案优化，提升营销活动的转化率与用户满意度。其高价值在于将数据驱动决策从理论落地到运营实践。

衍生相关工作

基于items_prompts_tv_3数据集，学术界衍生出一系列相关工作，如结合价格预测与文本生成的联合模型、使用预训练语言模型微调进行零样本定价的研究，以及融入外部知识图谱增强价格解释性的方法。此外，该数据集还启发了针对低资源语言的跨领域定价迁移学习工作，推动了提示学习在价格摘要任务中的应用。这些衍生工作不仅深化了零售领域语言模型的理解能力，也为经济文本挖掘提供了新的实验基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集