Amazon ML Challenge 2024 Dataset
收藏数据集概述
数据描述
该数据集用于从图像中提取实体值的机器学习模型训练和测试。数据集包含以下列:
- index: 数据样本的唯一标识符(ID)。
- image_link: 产品图像的公开URL,用于下载图像。
- group_id: 产品类别的代码。
- entity_name: 产品实体名称,例如“item_weight”。
- entity_value: 产品实体值,例如“34 gram”。
文件描述
源文件
- src/sanity.py: 用于确保最终输出文件通过所有格式检查的脚本。
- src/utils.py: 包含从
image_link下载图像的辅助函数。 - src/constants.py: 包含每个实体类型允许的单位。
- sample_code.py: 提供了一个生成符合格式要求的输出文件的示例代码。
数据集文件
- dataset/train.csv: 带有标签(
entity_value)的训练文件。 - dataset/test.csv: 没有输出标签(
entity_value)的测试文件。 - dataset/sample_test.csv: 示例测试输入文件。
- dataset/sample_test_out.csv:
sample_test.csv的示例输出文件。
输出格式
输出文件应为包含以下两列的CSV文件:
- index: 数据样本的唯一标识符(ID),需与测试记录的索引匹配。
- prediction: 字符串格式为“x unit”,其中x为标准格式的浮点数,unit为允许的单位之一。
约束条件
- 输出文件必须通过
sanity.py脚本的格式检查。 - 输出中使用的单位必须与
constants.py中定义的允许单位一致。
评估标准
提交的文件将基于F1分数进行评估,F1分数是分类和提取问题中预测准确性的标准度量。
提交文件
在门户中上传格式与sample_test_out.csv完全相同的test_out.csv文件。
附录
允许的单位列表如下:
python entity_unit_map = { "width": { "centimetre", "foot", "millimetre", "metre", "inch", "yard" }, "depth": { "centimetre", "foot", "millimetre", "metre", "inch", "yard" }, "height": { "centimetre", "foot", "millimetre", "metre", "inch", "yard" }, "item_weight": { "milligram", "kilogram", "microgram", "gram", "ounce", "ton", "pound" }, "maximum_weight_recommendation": { "milligram", "kilogram", "microgram", "gram", "ounce", "ton", "pound" }, "voltage": { "millivolt", "kilovolt", "volt" }, "wattage": { "kilowatt", "watt" }, "item_volume": { "cubic foot", "microlitre", "cup", "fluid ounce", "centilitre", "imperial gallon", "pint", "decilitre", "litre", "millilitre", "quart", "cubic inch", "gallon" } }




