Aria Glasses Egocentric Vision Dataset
收藏arXiv2025-07-22 更新2025-07-24 收录
下载链接:
https://github.com/josepDe/Project_Aria_STR
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过Meta的Aria眼镜在受控条件下捕获的,用于研究环境变量(如光照、距离和分辨率)对最先进的场景文本检测和识别(STDR)算法性能的影响。数据集包含在不同光照条件下、不同距离和分辨率下拍摄的固定文本海报的图像。数据集的创建旨在评估STDR算法在不同环境下的性能,并研究如何通过整合眼动追踪来优化处理效率。该数据集适用于辅助和面向研究的应用,如资产检查和营养分析。
This dataset was captured using Meta Aria glasses under controlled conditions, aiming to research the impact of environmental variables (e.g., illumination, distance, and resolution) on the performance of state-of-the-art scene text detection and recognition (STDR) algorithms. It comprises images of fixed text posters captured under varying lighting conditions, distances, and resolutions. This dataset was developed to evaluate the performance of STDR algorithms across diverse environments and investigate how processing efficiency can be optimized by integrating eye-tracking. It is suitable for auxiliary and research-oriented applications such as asset inspection and nutritional analysis.
提供机构:
罗伯特戈登大学
创建时间:
2025-07-22
原始信息汇总
数据集概述:基于Meta Project Aria眼镜的场景文本识别研究
数据集简介
- 研究目的:探索使用Meta Project Aria眼镜采集的自我中心数据(egocentric data)进行场景文本识别(STR)的算法性能。
- 核心变量:评估光照、距离和分辨率对STR算法的影响。
- 主要算法:
- 文本检测:EAST
- 文本识别:CRNN和PyTesseract
关键特性
- 数据采集设备:Meta Project Aria眼镜
- 眼动追踪技术:采用MPS眼动追踪技术优化处理,聚焦用户注视的"视方"区域。
- 处理流程:视频逐帧进行文本检测、识别,并标注边界框和转录文本,最终重组为新视频。
数据集内容
- 自定义数据集:通过固定文本海报在受控条件下录制。
- 海报文本:"Hello world! This is Joseph testing the Meta glasses."
- 光照条件:
- 自然光照
- 自然+人工光照
- 增强人工光照
- 夜间光照
- 采集设置:
- 距离:约50 cm和约1 m
- 分辨率:1048×1408和2880×2880
- 使用视频的第一帧进行分析
主要发现
- 显著影响因素:分辨率和距离对识别准确率影响显著。
- 次要影响因素:光照条件影响相对较小。
- 预处理效果:上采样+EAST+CRNN组合将字符错误率从0.65降至0.44。
- 亮度增强:通常会降低性能。
- 眼动追踪优势:通过聚焦注视区域实现高效处理。
未来方向
- 扩展数据集规模
- 实现实时注视目标定位
- 深入分析复杂场景
- 评估图像失真等额外变量
- 改进边界框合并方法
- 基于注视位置优化视方大小
相关资源
- 分析笔记:
- EAST分析:EAST_analysis.ipynb
- 文本识别分析:text_recognition_analysis.ipynb
- 眼动追踪STR分析:eye_tracking_str.ipynb
搜集汇总
数据集介绍

构建方式
Aria Glasses Egocentric Vision Dataset的构建依托于Meta的Project Aria智能眼镜,通过系统化控制环境变量来采集数据。研究团队在四种不同光照条件下(自然光、自然光与人工光结合、增强人工光及夜间照明)录制了固定文本海报的视频,同时调整拍摄距离(50厘米与1米)和分辨率(1048×1408与2880×2880像素),以构建一个多变量控制的实验数据集。所有数据均通过眼镜内置的RGB摄像头和眼动追踪传感器采集,确保了数据的多样性和可重复性。
特点
该数据集的核心特点在于其严格的环境变量控制和多模态数据融合。它不仅涵盖了光照、距离和分辨率等关键影响因素,还整合了眼动追踪数据,为研究用户注意力区域提供了独特视角。数据集中包含的文本场景具有真实世界的复杂性,如低分辨率、动态视角和光照变化,这使其成为评估场景文本检测与识别(STDR)算法鲁棒性的理想基准。此外,数据集通过地面真实标注和系统性变量隔离,支持对算法性能的细粒度分析。
使用方法
使用该数据集时,建议首先针对不同环境变量子集(如特定光照或分辨率)进行算法性能的横向对比。研究者可结合EAST文本检测算法与CRNN或PyTesseract等OCR模型,通过字符错误率(CER)和交并比(IoU)等指标量化评估。对于眼动数据,可提取用户注视区域作为感兴趣区域(ROI),以优化计算效率。数据集的预处理环节推荐尝试图像超分辨率技术,尤其在低分辨率样本上已证实可将CER从0.65降至0.48。最终验证阶段应包含真实场景测试,如超市环境下的商品标签识别。
背景与挑战
背景概述
Aria Glasses Egocentric Vision Dataset是由Robert Gordon大学的Joseph De Mathia和Carlos Francisco Moreno-García于2024年提出的一个新型数据集,旨在探索在复杂环境条件下基于自我中心视觉的场景文本检测与识别(STDR)问题。该数据集利用Meta的Project Aria智能眼镜,在受控条件下捕获了不同光照、距离和分辨率的文本图像,为研究环境变量对STDR算法性能的影响提供了重要基准。其核心研究问题聚焦于如何提升在动态、真实场景下的文本识别准确率,尤其在低光照、远距离和低分辨率等挑战性条件下的表现。该数据集不仅为增强现实(AR)和虚拟现实(VR)应用提供了技术支持,也为辅助性应用如资产检查和营养分析等场景开辟了新的研究方向。
当前挑战
Aria Glasses Egocentric Vision Dataset面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集致力于解决复杂环境下的场景文本检测与识别问题,尤其是低光照、远距离和低分辨率条件下的文本识别准确率低下问题。实验表明,分辨率和距离对识别准确率有显著影响,而光照条件的影响则较为复杂且难以预测。在构建过程中,研究人员需要精确控制多种环境变量(如四种不同的光照条件、两种距离和两种分辨率),以确保数据集的多样性和代表性。此外,由于智能眼镜的视角和移动性,文本的视角变化和动态模糊也增加了数据采集和标注的难度。这些挑战为未来研究提供了明确的方向,包括优化预处理技术、开发更鲁棒的STDR算法以及探索实时眼动追踪与文本识别的结合。
常用场景
经典使用场景
在增强现实(AR)和可穿戴技术迅猛发展的背景下,Aria Glasses Egocentric Vision Dataset为场景文本检测与识别(STDR)研究提供了独特的视角。该数据集通过Meta的Project Aria智能眼镜采集,记录了在不同光照、距离和分辨率条件下的文本图像,为研究环境因素对STDR算法性能的影响提供了丰富的数据支持。其经典使用场景包括在复杂环境下的文本识别,如低光照、远距离或低分辨率条件下的广告牌、商品标签等文本信息的提取。
解决学术问题
该数据集解决了STDR领域中的关键学术问题,特别是在挑战性环境条件下的文本识别性能评估。通过系统性地控制光照、距离和分辨率等变量,研究者能够量化这些因素对算法准确性的影响。例如,研究发现分辨率和距离对识别准确率有显著影响,而光照的影响则较为复杂。这些发现为优化STDR算法提供了科学依据,特别是在预处理技术(如图像放大)的应用上,显著降低了字符错误率(CER)。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括ICDAR 2024竞赛中的文本识别任务,以及结合大型语言模型(LLM)的智能阅读辅助系统。例如,Jahagirdar等人的工作利用该数据集评估了多种OCR方法在低分辨率和低光照条件下的表现,而Mucha等人则开发了基于Project Aria眼镜和GPT-4的实时文本交互系统,显著提升了视觉障碍用户的阅读体验。这些研究不仅扩展了数据集的应用范围,也为未来STDR技术的发展指明了方向。
以上内容由遇见数据集搜集并总结生成



