five

YunxinLi/MD2T

收藏
Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/YunxinLi/MD2T
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - zh pretty_name: MD2T size_categories: - 100K<n<1M --- MD2T is a new setting for multimodal E-commerce Description generation based on structured keywords and images. Our paper (LREC-COLING 2024): [A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation](https://arxiv.org/abs/2402.13587). # MD2T Dataset Statistics | MD2T | Cases&Bags | Clothing | Home Appliances | |-----------|------------|----------|-----------------| | #Train | 18,711 | 200,000 | 86,858 | | #Dev | 983 | 6,120 | 1,794 | | #Test | 1,000 | 8,700 | 2,200 | | Avg_N #MP | 5.41 | 6.57 | 5.48 | | Avg_L #MP | 13.50 | 20.34 | 18.30 | | Avg_L #Desp | 80.05 | 79.03 | 80.13 | **Table 1:** The detailed statistics of MD2T. Avg_N and Avg_L represent the average number and length respectively. MP and Desp indicate the marketing keywords and description. # Cite our Work ``` @article{li2024multimodal, title={A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation}, author={Li, Yunxin and Hu, Baotian and Luo, Wenhan and Ma, Lin and Ding, Yuxin and Zhang, Min}, journal={arXiv preprint arXiv:2402.13587}, year={2024} } ```

许可证:Apache-2.0 任务类别: - 文本生成 语言: - 中文 规范名称:MD2T 样本量范围: - 100K < n < 1M MD2T是一种基于结构化关键词与图像的多模态电商商品描述生成新型任务范式。 我们的论文(LREC-COLING 2024):[面向电商商品描述生成的多模态上下文微调方法](https://arxiv.org/abs/2402.13587)。 # MD2T 数据集统计信息 | MD2T | 箱包(Cases&Bags) | 服饰(Clothing) | 家用电器(Home Appliances) | |---------------------|-------------------|----------------|---------------------------| | 训练集样本数 | 18,711 | 200,000 | 86,858 | | 开发集样本数 | 983 | 6,120 | 1,794 | | 测试集样本数 | 1,000 | 8,700 | 2,200 | | 营销关键词平均数量 | 5.41 | 6.57 | 5.48 | | 营销关键词平均长度 | 13.50 | 20.34 | 18.30 | | 商品描述平均长度 | 80.05 | 79.03 | 80.13 | **表1**:MD2T数据集的详细统计信息。其中Avg_N与Avg_L分别代表平均数量与平均长度;MP与Desp分别指代营销关键词与商品描述。 # 引用我们的研究 @article{li2024multimodal, title={A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation}, author={Li, Yunxin and Hu, Baotian and Luo, Wenhan and Ma, Lin and Ding, Yuxin and Zhang, Min}, journal={arXiv preprint arXiv:2402.13587}, year={2024} }
提供机构:
YunxinLi
原始信息汇总

MD2T 数据集概述

MD2T 是一个基于结构化关键词和图像的多模态电子商务描述生成的新设置。

数据集统计信息

MD2T Cases&Bags Clothing Home Appliances
#Train 18,711 200,000 86,858
#Dev 983 6,120 1,794
#Test 1,000 8,700 2,200
Avg_N #MP 5.41 6.57 5.48
Avg_L #MP 13.50 20.34 18.30
Avg_L #Desp 80.05 79.03 80.13

表1: MD2T 的详细统计信息。Avg_N 和 Avg_L 分别表示平均数量和长度。MP 和 Desp 分别表示营销关键词和描述。

引用我们的工作

plaintext @article{li2024multimodal, title={A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation}, author={Li, Yunxin and Hu, Baotian and Luo, Wenhan and Ma, Lin and Ding, Yuxin and Zhang, Min}, journal={arXiv preprint arXiv:2402.13587}, year={2024} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MD2T是一个多模态电子商务描述生成数据集,包含三个产品类别的结构化关键词和图像数据,用于生成产品描述。数据集规模中等(100K<n<1M),包含详细的数据统计信息,并附有相关研究论文支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作