lil-lab/kilogram

Name: lil-lab/kilogram
Creator: lil-lab
Published: 2024-08-17 22:17:53
License: 暂无描述

Hugging Face2024-08-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lil-lab/kilogram

下载链接

链接失效反馈

官方服务：

资源简介：

KiloGram数据集是一个涉及视觉语言和参考游戏的英语单语言数据集，特别关注七巧板（tangrams）相关的内容。数据集包括训练集和评估集，文件格式为JSON，图像文件为PNG格式。数据集的规模在1K到10K之间，由众包创建。

The KiloGram dataset is an English monolingual dataset focused on vision-language and reference games, with particular emphasis on tangram-related content. It includes training and evaluation splits, with data files stored in JSON format and image files in PNG format. The dataset has a size ranging from 1K to 10K and was created via crowdsourcing.

提供机构：

lil-lab

原始信息汇总

数据集概述

基本信息

名称: KiloGram
语言: 英语（en）
多语言性: 单语种
大小: 1K<n<10K
来源: 原始数据
标签:
- 七巧板
- 参考游戏
- 视觉-语言

数据集内容

训练集:
- 文本格式: train_*.json，格式为{tangramName: list(annotations)}。
- 图像格式: 彩色图像位于/color，命名格式为tangramName_{idx}.png，其中idx对应文本文件中注释的索引。
验证、开发、保留集:
- 文本格式: {whole, part}_{black, color}.json，格式为{"targets": list(imageFileNames), "images": list(imageFileNames), "texts": list(annotations)}。所有上下文被展平并连接成一个列表。
- 实验: /controlled包含受控上下文的实验，/random包含不受控的实验。
- 增强数据: /development/texts/augmented/aug_dev.json和images/augmented.tar.bz2用于评估添加部分信息的效果。
中间文件:
- 格式: */text/controlled/eval_batch_data.json，格式为{tangramName: {numOfParts: list({"target": [tangramName_{idx}, annotation], "distractors": list(list([tangramName_{idx}, annotation]))})}}，用于生成受控实验的JSON文件。

数据集用途

用于训练和评估视觉-语言模型，特别是在七巧板和参考游戏领域。

搜集汇总

数据集介绍

构建方式

在视觉语言推理领域，KiloGram数据集通过众包方式精心构建，专注于七巧板形状的抽象视觉推理任务。数据集的构建过程涉及从原始七巧板图像中提取标注，采用系统化的预处理流程，将文本描述与对应的彩色图像进行配对。训练集以JSON格式组织，其中每个七巧板名称映射到一系列标注列表，而图像则根据标注索引进行命名和存储，确保了数据的一致性和可追溯性。验证集、开发集和保留集进一步细分为整体与部分、黑白与彩色等子集，通过扁平化上下文并拼接为列表，支持复杂的实验设计，如控制部件数量的约束环境评估。

使用方法

使用KiloGram数据集时，研究者可从HuggingFace平台获取预处理后的训练和评估数据。训练集文件如`train_*.json`以键值对形式存储七巧板名称与标注列表，图像文件则位于`/color`目录下，按命名规范与文本索引对应。评估集文件如`{whole, part}_{black, color}.json`采用扁平化结构，包含目标图像、上下文图像和文本标注列表，便于直接加载用于模型训练或测试。对于控制实验，可参考`/controlled`目录下的JSON文件，其中数据以结构化格式组织，支持部件数量约束的分析。数据集还提供中间文件如`eval_batch_data.json`，用于生成定制化实验数据，但需注意其标注以“#”连接而非自然英语。整体而言，数据集的使用需结合原始代码库进行，以确保实验的可复现性和结果的准确性。

背景与挑战

背景概述

在视觉与语言交叉研究领域，抽象视觉推理作为评估模型认知能力的关键任务，长期受到学界关注。KiloGram数据集由康奈尔大学LIL实验室于2022年创建，核心研究聚焦于通过七巧板拼图游戏，探索智能体在跨模态情境下进行指代与推理的机制。该数据集通过众包方式收集了丰富的文本描述与图像配对，旨在推动视觉语言模型在抽象形状理解、上下文推理及指代消解等方面的研究，为认知科学与人工智能的交叉发展提供了标准化评估基准。

当前挑战

KiloGram数据集致力于解决抽象视觉推理中的指代游戏问题，其核心挑战在于模型需在复杂多变的七巧板组合中，精准关联文本描述与视觉形态，并处理部分与整体关系的隐含逻辑。构建过程中的挑战主要体现在众包标注的语义一致性维护，以及如何设计可控实验环境以分离变量影响，例如在部分信息增强实验中平衡数据规模与标注质量，确保评估框架能有效衡量模型推理能力而非表面模式匹配。

常用场景

经典使用场景

在视觉语言推理领域，KiloGram数据集通过七巧板形状的抽象视觉任务，为研究视觉与语言之间的复杂交互提供了经典实验平台。该数据集常用于训练和评估模型在参考游戏场景下的表现，其中模型需要根据自然语言描述从一组候选图像中识别目标形状，这直接模拟了人类在视觉推理中依赖语言线索进行对象辨识的认知过程。

解决学术问题

KiloGram数据集有效解决了抽象视觉推理中语言引导的视觉定位问题，推动了跨模态理解研究的发展。它帮助学术界探究模型如何处理模糊或抽象的视觉信息，并评估其在新颖组合情境下的泛化能力，从而深化了对视觉语言联合表征学习机制的理解，为构建更鲁棒的智能系统奠定了理论基础。

实际应用

在实际应用中，KiloGram数据集可助力开发智能辅助设计工具，例如根据用户的语言描述自动生成或检索对应的图形组合，提升创意设计效率。同时，它在教育技术领域也有潜力，能够支持自适应学习系统，通过视觉语言交互帮助学生理解几何形状与空间关系，实现个性化教学。

数据集最近研究