YunxinLi/MD2T

Name: YunxinLi/MD2T
Creator: YunxinLi
Published: 2024-03-07 09:23:20
License: 暂无描述

Hugging Face2024-03-07 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/YunxinLi/MD2T

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-generation language: - zh pretty_name: MD2T size_categories: - 100K<n<1M --- MD2T is a new setting for multimodal E-commerce Description generation based on structured keywords and images. Our paper (LREC-COLING 2024): [A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation](https://arxiv.org/abs/2402.13587). # MD2T Dataset Statistics | MD2T | Cases&Bags | Clothing | Home Appliances | |-----------|------------|----------|-----------------| | #Train | 18,711 | 200,000 | 86,858 | | #Dev | 983 | 6,120 | 1,794 | | #Test | 1,000 | 8,700 | 2,200 | | Avg_N #MP | 5.41 | 6.57 | 5.48 | | Avg_L #MP | 13.50 | 20.34 | 18.30 | | Avg_L #Desp | 80.05 | 79.03 | 80.13 | **Table 1:** The detailed statistics of MD2T. Avg_N and Avg_L represent the average number and length respectively. MP and Desp indicate the marketing keywords and description. # Cite our Work ``` @article{li2024multimodal, title={A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation}, author={Li, Yunxin and Hu, Baotian and Luo, Wenhan and Ma, Lin and Ding, Yuxin and Zhang, Min}, journal={arXiv preprint arXiv:2402.13587}, year={2024} } ```

许可证：Apache-2.0 任务类别： - 文本生成语言： - 中文规范名称：MD2T 样本量范围： - 100K < n < 1M MD2T是一种基于结构化关键词与图像的多模态电商商品描述生成新型任务范式。我们的论文（LREC-COLING 2024）：[面向电商商品描述生成的多模态上下文微调方法](https://arxiv.org/abs/2402.13587)。 # MD2T 数据集统计信息 | MD2T | 箱包（Cases&Bags） | 服饰（Clothing） | 家用电器（Home Appliances） | |---------------------|-------------------|----------------|---------------------------| | 训练集样本数 | 18,711 | 200,000 | 86,858 | | 开发集样本数 | 983 | 6,120 | 1,794 | | 测试集样本数 | 1,000 | 8,700 | 2,200 | | 营销关键词平均数量 | 5.41 | 6.57 | 5.48 | | 营销关键词平均长度 | 13.50 | 20.34 | 18.30 | | 商品描述平均长度 | 80.05 | 79.03 | 80.13 | **表1**：MD2T数据集的详细统计信息。其中Avg_N与Avg_L分别代表平均数量与平均长度；MP与Desp分别指代营销关键词与商品描述。 # 引用我们的研究 @article{li2024multimodal, title={A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation}, author={Li, Yunxin and Hu, Baotian and Luo, Wenhan and Ma, Lin and Ding, Yuxin and Zhang, Min}, journal={arXiv preprint arXiv:2402.13587}, year={2024} }

提供机构：

YunxinLi

原始信息汇总

MD2T 数据集概述

MD2T 是一个基于结构化关键词和图像的多模态电子商务描述生成的新设置。

数据集统计信息

MD2T	Cases&Bags	Clothing	Home Appliances
#Train	18,711	200,000	86,858
#Dev	983	6,120	1,794
#Test	1,000	8,700	2,200
Avg_N #MP	5.41	6.57	5.48
Avg_L #MP	13.50	20.34	18.30
Avg_L #Desp	80.05	79.03	80.13

表1： MD2T 的详细统计信息。Avg_N 和 Avg_L 分别表示平均数量和长度。MP 和 Desp 分别表示营销关键词和描述。

引用我们的工作

plaintext @article{li2024multimodal, title={A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation}, author={Li, Yunxin and Hu, Baotian and Luo, Wenhan and Ma, Lin and Ding, Yuxin and Zhang, Min}, journal={arXiv preprint arXiv:2402.13587}, year={2024} }

搜集汇总

数据集介绍

背景与挑战

背景概述

MD2T是一个多模态电子商务描述生成数据集，包含三个产品类别的结构化关键词和图像数据，用于生成产品描述。数据集规模中等（100K<n<1M），包含详细的数据统计信息，并附有相关研究论文支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集