Amazon ML Challenge 2024 Dataset

github2024-09-20 更新2024-09-25 收录

下载链接：

https://github.com/SubhangiSati/Amazon_ML_Challenge_2024

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从图像中提取实体值的任务所需的信息。数据集包括以下列：唯一标识符（ID）、产品图像的公共URL、产品类别代码、产品实体名称和产品实体值。训练文件包含标签（entity_value），而测试文件不包含输出标签（entity_value）。

This dataset contains the information required for the task of extracting entity values from images. The dataset includes the following columns: unique identifier (ID), public URL of product images, product category code, product entity name, and product entity value. The training files contain the label (entity_value), while the test files do not include the output label (entity_value).

创建时间：

2024-09-16

原始信息汇总

数据集概述

数据描述

该数据集用于从图像中提取实体值的机器学习模型训练和测试。数据集包含以下列：

index: 数据样本的唯一标识符（ID）。
image_link: 产品图像的公开URL，用于下载图像。
group_id: 产品类别的代码。
entity_name: 产品实体名称，例如“item_weight”。
entity_value: 产品实体值，例如“34 gram”。

文件描述

源文件

src/sanity.py: 用于确保最终输出文件通过所有格式检查的脚本。
src/utils.py: 包含从image_link下载图像的辅助函数。
src/constants.py: 包含每个实体类型允许的单位。
sample_code.py: 提供了一个生成符合格式要求的输出文件的示例代码。

数据集文件

dataset/train.csv: 带有标签（entity_value）的训练文件。
dataset/test.csv: 没有输出标签（entity_value）的测试文件。
dataset/sample_test.csv: 示例测试输入文件。
dataset/sample_test_out.csv: sample_test.csv的示例输出文件。

输出格式

输出文件应为包含以下两列的CSV文件：

index: 数据样本的唯一标识符（ID），需与测试记录的索引匹配。
prediction: 字符串格式为“x unit”，其中x为标准格式的浮点数，unit为允许的单位之一。

约束条件

输出文件必须通过sanity.py脚本的格式检查。
输出中使用的单位必须与constants.py中定义的允许单位一致。

评估标准

提交的文件将基于F1分数进行评估，F1分数是分类和提取问题中预测准确性的标准度量。

提交文件

在门户中上传格式与sample_test_out.csv完全相同的test_out.csv文件。

附录

允许的单位列表如下：

python entity_unit_map = { "width": { "centimetre", "foot", "millimetre", "metre", "inch", "yard" }, "depth": { "centimetre", "foot", "millimetre", "metre", "inch", "yard" }, "height": { "centimetre", "foot", "millimetre", "metre", "inch", "yard" }, "item_weight": { "milligram", "kilogram", "microgram", "gram", "ounce", "ton", "pound" }, "maximum_weight_recommendation": { "milligram", "kilogram", "microgram", "gram", "ounce", "ton", "pound" }, "voltage": { "millivolt", "kilovolt", "volt" }, "wattage": { "kilowatt", "watt" }, "item_volume": { "cubic foot", "microlitre", "cup", "fluid ounce", "centilitre", "imperial gallon", "pint", "decilitre", "litre", "millilitre", "quart", "cubic inch", "gallon" } }

搜集汇总

数据集介绍

构建方式

在Amazon ML Challenge 2024数据集的构建过程中，研究者们精心设计了一个包含多个关键字段的结构化数据集，以支持从图像中提取实体值的任务。该数据集由五个主要列组成：唯一标识符（index）、图像链接（image_link）、产品类别代码（group_id）、实体名称（entity_name）和实体值（entity_value）。特别地，训练集包含实体值，而测试集则不包含，以确保模型在实际应用中的泛化能力。通过这种方式，数据集不仅提供了丰富的图像资源，还确保了实体提取任务的实际应用价值。

特点

Amazon ML Challenge 2024数据集的显著特点在于其高度结构化和实际应用导向的设计。首先，数据集中的图像链接直接指向公开的商品图片，便于直接下载和处理。其次，实体名称和实体值的明确区分，使得模型训练和评估过程更加精确。此外，数据集还提供了详细的输出格式要求和允许的单位列表，确保了模型输出的标准化和一致性。这些特点使得该数据集在图像实体提取领域具有较高的实用性和研究价值。

使用方法

使用Amazon ML Challenge 2024数据集时，研究者首先需下载图像链接中的图片，并利用提供的工具函数进行处理。接着，通过训练集（train.csv）进行模型训练，确保模型能够准确提取图像中的实体值。在测试阶段，使用测试集（test.csv）生成预测，并按照指定的输出格式（index和prediction）生成结果文件。最后，通过sanity.py脚本检查输出文件的格式，确保其符合评估标准。这一流程不仅规范了数据集的使用，也确保了模型在实际应用中的有效性和可靠性。

背景与挑战

背景概述

Amazon ML Challenge 2024 Dataset 是由亚马逊发起的一项机器学习挑战赛的数据集，旨在推动图像特征提取技术的发展。该数据集的核心研究问题是如何从图像中自动提取产品的关键实体值，如重量、体积、电压等，这对于电子商务、医疗和内容审核等领域具有重要意义。随着数字市场的扩展，许多产品缺乏详细的文本描述，因此从图像中获取这些关键信息变得尤为重要。该数据集由亚马逊的主要研究人员和机构创建，旨在通过提供丰富的图像和相关实体数据，推动机器学习模型在这些领域的应用。

当前挑战

Amazon ML Challenge 2024 Dataset 面临的挑战主要集中在图像特征提取的准确性和效率上。首先，数据集中的图像可能包含复杂的背景和多样的产品展示方式，这增加了特征提取的难度。其次，数据集要求提取的实体值必须符合特定的单位标准，这需要模型具备高度的精确性和一致性。此外，数据集的构建过程中还面临数据标注的复杂性和多样性问题，确保每个实体值的准确标注是一项艰巨的任务。最后，评估模型的标准是基于F1分数，这意味着模型不仅需要高精度，还需要高召回率，以确保在实际应用中的有效性。

常用场景

经典使用场景

在Amazon ML Challenge 2024数据集中，经典的使用场景主要集中在图像特征提取领域。该数据集旨在训练机器学习模型，从产品图像中提取关键实体值，如重量、体积、电压等。这一能力在电子商务、医疗和内容审核等领域尤为重要，因为这些领域需要从图像中获取精确的产品信息，以弥补文本描述的不足。通过训练模型，可以自动从图像中提取这些实体值，从而提高数字市场的运营效率和准确性。

衍生相关工作

基于Amazon ML Challenge 2024数据集，衍生了一系列相关工作。研究者们开发了多种图像特征提取算法，提升了从图像中提取实体值的准确性和效率。此外，该数据集还促进了跨领域的研究，如结合自然语言处理技术，实现图像和文本信息的联合分析。在学术界，基于该数据集的研究成果被广泛应用于各类机器学习竞赛和实际项目中，推动了相关技术的快速发展和应用。

数据集最近研究