goatman/metahuman-gaze-prediction

Name: goatman/metahuman-gaze-prediction
Creator: goatman
Published: 2024-03-09 05:46:50
License: 暂无描述

Hugging Face2024-03-09 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/goatman/metahuman-gaze-prediction

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 --- #Extract and normalize the coordinates (dodgy version for testing) def get_coords_metahuman(file: Path): im_id, character, xcoord, ycoord, xsize, ysize = file.name.split('.jpg')[:-1][0].split('_') xcoord, ycoord, xsize, ysize = float(xcoord), float(ycoord), float(xsize), float(ysize) base_screensize = tensor([46.49, 26.15]) # generic width and height measurement in cms given by gpt4 as a likely mean screen size normalized_screensize = tensor([xsize, ysize])/base_screensize x = (xcoord)/xsize y = (ycoord)/ysize # normalize to range -0.5, 0.5 return tensor([x, y])

--- 许可证：Apache-2.0 --- # 提取并归一化坐标（用于测试的简易版本） def get_coords_metahuman(file: 路径对象（Path）): im_id, character, xcoord, ycoord, xsize, ysize = file.name.split('.jpg')[:-1][0].split('_') xcoord, ycoord, xsize, ysize = float(xcoord), float(ycoord), float(xsize), float(ysize) base_screensize = 张量（tensor）([46.49, 26.15]) # 该基准屏幕尺寸由GPT-4给出，为通用平均屏幕尺寸，单位为厘米 normalized_screensize = 张量([xsize, ysize])/base_screensize x = (xcoord)/xsize y = (ycoord)/ysize # 将坐标归一化至[-0.5, 0.5]区间 return 张量([x, y])

提供机构：

goatman

原始信息汇总

数据集概述

数据处理函数

函数名称: get_coords_metahuman
功能描述: 从文件名中提取并标准化坐标信息。
参数: file (文件路径)
返回值: 标准化后的坐标张量

处理步骤

文件名解析: 从文件名中提取图像ID、角色、坐标和尺寸信息。
- 示例文件名格式: im_id.character_xcoord_ycoord_xsize_ysize.jpg
坐标转换: 将提取的坐标和尺寸信息转换为浮点数。
基准屏幕尺寸: 使用一个通用的屏幕尺寸（宽46.49厘米，高26.15厘米）进行标准化。
标准化计算:
- 计算标准化后的屏幕尺寸: normalized_screensize = tensor([xsize, ysize]) / base_screensize
- 计算标准化后的坐标: x = xcoord / xsize, y = ycoord / ysize
范围标准化: 将坐标标准化到范围 -0.5, 0.5。

返回结果

返回标准化后的坐标张量 tensor([x, y])。

搜集汇总

数据集介绍

构建方式

在计算机视觉与虚拟角色交互领域，数据集的构建需兼顾真实性与标准化。本数据集通过采集虚拟角色（Metahuman）在屏幕上的注视点坐标，结合图像文件命名规则提取关键参数。具体而言，从文件名中解析出角色标识、原始坐标及屏幕尺寸，并利用预设的基准屏幕尺寸进行归一化处理，将坐标映射至[-0.5, 0.5]的标准化区间，从而确保数据在空间维度上的一致性与可比性。

特点

该数据集聚焦于虚拟角色的视线预测任务，其核心特点在于坐标数据的精细化处理。所有注视点坐标均经过屏幕尺寸归一化，消除了不同显示设备带来的尺度差异，使得数据具有跨平台适用性。同时，数据以张量形式存储，便于直接嵌入深度学习框架进行模型训练。这种设计不仅提升了数据的工程友好性，也为视线行为分析提供了高精度的空间表征基础。

使用方法

使用本数据集时，研究者可借助提供的坐标提取函数，将原始图像文件名转换为标准化注视向量。该函数自动完成坐标解析、尺寸归一化及范围映射，输出可直接用于模型输入的张量数据。在实际应用中，用户需确保图像文件命名符合既定格式，并依据任务需求整合视觉特征与坐标标签，构建端到端的视线预测或行为分析模型，推动虚拟角色交互技术的实证研究。

背景与挑战

背景概述

在计算机视觉与人工智能交互领域，视线预测技术对于理解人类注意力机制至关重要。goatman/metahuman-gaze-prediction数据集由相关研究团队于近期构建，旨在通过高精度标注的虚拟人像视线数据，推动视线估计模型的泛化能力与鲁棒性发展。该数据集聚焦于解决虚拟环境中视线方向的精准预测问题，其核心研究在于弥合真实场景与合成数据之间的语义鸿沟，为沉浸式交互系统、自动驾驶监控及心理行为分析提供了关键数据支撑，显著提升了跨域视线估计模型的性能边界。

当前挑战

视线预测领域长期面临标注成本高昂、个体差异显著以及环境变量复杂等挑战，该数据集致力于在虚拟人像场景中实现高精度视线方向回归，但需克服合成数据与真实世界分布差异所导致的模型泛化瓶颈。在构建过程中，研究人员需应对坐标归一化处理的精度控制难题，例如屏幕尺寸标准化与坐标映射的数学一致性，同时确保数据标注在多样化虚拟人物姿态与光照条件下的可靠性，这些因素共同构成了数据集在算法适配与实用化部署中的核心障碍。

常用场景

经典使用场景

在计算机视觉与人机交互领域，视线预测作为理解人类注意力的关键环节，其研究依赖于高质量的数据集。goatman/metahuman-gaze-prediction数据集通过提供虚拟人物（Metahuman）的视线坐标数据，为视线估计模型的训练与评估奠定了坚实基础。该数据集常用于开发深度学习模型，以从面部图像中精准预测视线方向，尤其在虚拟现实与增强现实环境中，对提升交互的自然性与沉浸感具有显著价值。

衍生相关工作

基于该数据集，研究者们衍生了一系列经典工作。例如，结合生成对抗网络（GAN）的视线合成方法，提升了虚拟人物视线的真实感；利用迁移学习框架，将模型适配到真实人脸数据，突破了领域差异限制；还有工作专注于多模态融合，整合头部姿态与面部特征，进一步提高了预测精度。这些成果共同丰富了视线预测的研究图谱。

数据集最近研究