five

goatman/metahuman-gaze-prediction

收藏
Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/goatman/metahuman-gaze-prediction
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- #Extract and normalize the coordinates (dodgy version for testing) def get_coords_metahuman(file: Path): im_id, character, xcoord, ycoord, xsize, ysize = file.name.split('.jpg')[:-1][0].split('_') xcoord, ycoord, xsize, ysize = float(xcoord), float(ycoord), float(xsize), float(ysize) base_screensize = tensor([46.49, 26.15]) # generic width and height measurement in cms given by gpt4 as a likely mean screen size normalized_screensize = tensor([xsize, ysize])/base_screensize x = (xcoord)/xsize y = (ycoord)/ysize # normalize to range -0.5, 0.5 return tensor([x, y])

--- 许可证:Apache-2.0 --- # 提取并归一化坐标(用于测试的简易版本) def get_coords_metahuman(file: 路径对象(Path)): im_id, character, xcoord, ycoord, xsize, ysize = file.name.split('.jpg')[:-1][0].split('_') xcoord, ycoord, xsize, ysize = float(xcoord), float(ycoord), float(xsize), float(ysize) base_screensize = 张量(tensor)([46.49, 26.15]) # 该基准屏幕尺寸由GPT-4给出,为通用平均屏幕尺寸,单位为厘米 normalized_screensize = 张量([xsize, ysize])/base_screensize x = (xcoord)/xsize y = (ycoord)/ysize # 将坐标归一化至[-0.5, 0.5]区间 return 张量([x, y])
提供机构:
goatman
原始信息汇总

数据集概述

数据处理函数

  • 函数名称: get_coords_metahuman
  • 功能描述: 从文件名中提取并标准化坐标信息。
  • 参数: file (文件路径)
  • 返回值: 标准化后的坐标张量

处理步骤

  1. 文件名解析: 从文件名中提取图像ID、角色、坐标和尺寸信息。
    • 示例文件名格式: im_id.character_xcoord_ycoord_xsize_ysize.jpg
  2. 坐标转换: 将提取的坐标和尺寸信息转换为浮点数。
  3. 基准屏幕尺寸: 使用一个通用的屏幕尺寸(宽46.49厘米,高26.15厘米)进行标准化。
  4. 标准化计算:
    • 计算标准化后的屏幕尺寸: normalized_screensize = tensor([xsize, ysize]) / base_screensize
    • 计算标准化后的坐标: x = xcoord / xsize, y = ycoord / ysize
  5. 范围标准化: 将坐标标准化到范围 -0.5, 0.5

返回结果

  • 返回标准化后的坐标张量 tensor([x, y])
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与虚拟角色交互领域,数据集的构建需兼顾真实性与标准化。本数据集通过采集虚拟角色(Metahuman)在屏幕上的注视点坐标,结合图像文件命名规则提取关键参数。具体而言,从文件名中解析出角色标识、原始坐标及屏幕尺寸,并利用预设的基准屏幕尺寸进行归一化处理,将坐标映射至[-0.5, 0.5]的标准化区间,从而确保数据在空间维度上的一致性与可比性。
特点
该数据集聚焦于虚拟角色的视线预测任务,其核心特点在于坐标数据的精细化处理。所有注视点坐标均经过屏幕尺寸归一化,消除了不同显示设备带来的尺度差异,使得数据具有跨平台适用性。同时,数据以张量形式存储,便于直接嵌入深度学习框架进行模型训练。这种设计不仅提升了数据的工程友好性,也为视线行为分析提供了高精度的空间表征基础。
使用方法
使用本数据集时,研究者可借助提供的坐标提取函数,将原始图像文件名转换为标准化注视向量。该函数自动完成坐标解析、尺寸归一化及范围映射,输出可直接用于模型输入的张量数据。在实际应用中,用户需确保图像文件命名符合既定格式,并依据任务需求整合视觉特征与坐标标签,构建端到端的视线预测或行为分析模型,推动虚拟角色交互技术的实证研究。
背景与挑战
背景概述
在计算机视觉与人工智能交互领域,视线预测技术对于理解人类注意力机制至关重要。goatman/metahuman-gaze-prediction数据集由相关研究团队于近期构建,旨在通过高精度标注的虚拟人像视线数据,推动视线估计模型的泛化能力与鲁棒性发展。该数据集聚焦于解决虚拟环境中视线方向的精准预测问题,其核心研究在于弥合真实场景与合成数据之间的语义鸿沟,为沉浸式交互系统、自动驾驶监控及心理行为分析提供了关键数据支撑,显著提升了跨域视线估计模型的性能边界。
当前挑战
视线预测领域长期面临标注成本高昂、个体差异显著以及环境变量复杂等挑战,该数据集致力于在虚拟人像场景中实现高精度视线方向回归,但需克服合成数据与真实世界分布差异所导致的模型泛化瓶颈。在构建过程中,研究人员需应对坐标归一化处理的精度控制难题,例如屏幕尺寸标准化与坐标映射的数学一致性,同时确保数据标注在多样化虚拟人物姿态与光照条件下的可靠性,这些因素共同构成了数据集在算法适配与实用化部署中的核心障碍。
常用场景
经典使用场景
在计算机视觉与人机交互领域,视线预测作为理解人类注意力的关键环节,其研究依赖于高质量的数据集。goatman/metahuman-gaze-prediction数据集通过提供虚拟人物(Metahuman)的视线坐标数据,为视线估计模型的训练与评估奠定了坚实基础。该数据集常用于开发深度学习模型,以从面部图像中精准预测视线方向,尤其在虚拟现实与增强现实环境中,对提升交互的自然性与沉浸感具有显著价值。
衍生相关工作
基于该数据集,研究者们衍生了一系列经典工作。例如,结合生成对抗网络(GAN)的视线合成方法,提升了虚拟人物视线的真实感;利用迁移学习框架,将模型适配到真实人脸数据,突破了领域差异限制;还有工作专注于多模态融合,整合头部姿态与面部特征,进一步提高了预测精度。这些成果共同丰富了视线预测的研究图谱。
数据集最近研究
最新研究方向
在虚拟现实与人机交互领域,视线预测技术正成为提升沉浸感的关键。基于goatman/metahuman-gaze-prediction数据集,研究者聚焦于高精度视线追踪模型的开发,结合深度学习与归一化坐标处理,以优化虚拟角色在动态环境中的自然注视行为。前沿探索涉及多模态数据融合,将视线预测与头部姿态、场景语义结合,推动元宇宙中数字人的情感交互真实性。热点事件如虚拟直播与远程协作的兴起,加速了该数据集在减少视觉疲劳、增强用户体验方面的应用,其影响延伸至医疗康复与智能驾驶,为具身智能系统提供了核心感知基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作