眼动数据分析在电力VR培训中的应用

(整期优先)网络出版时间:2023-02-17
/ 2

眼动数据分析在电力VR培训中的应用

甘先锐

深圳供电局有限公司 广东深圳  518028

摘要:随着虚拟现实技术的发展,越来越多地被运用到建筑、园林、规划等领域。这类专业的课程设置通常要求学生进行大量的实地实习和主观调研,存在着实践教学效率低下,传统的问卷形式难以量化等问题。本论文旨在探讨将VR技术、眼动数据与影像辨识技术结合起来,提高课堂教学的效率。具体的方法是基于 VR技术,通过对真实的场景进行数字处理,并从虚拟场景中提取眼球运动数据;同时,通过图像的方式输出含有眼球运动的图像,从而构成了一个数据集合。

关键词图像识别;数据分析;眼动行为;

引言:

眼球主要作用是识别和分析个人在完成诸如阅读,搜索,浏览图像,驾驶等特殊任务时的视觉注意模式。其中,最具代表性的是眼跳与注视。在每一次眼跳动时,我们的视觉敏感度都会受到限制,从而使我们无法看清事物。人类的视觉只能用注视去看世界,而大脑则会把不断注视所得到的视觉影像整合为一个可视的景象。另外,我们还可以把人的注视的注意力特性整合为一种可感知的内容。越是复杂、迷惑、越有吸引力,盯着看得越久,大脑就越需要花更多的时间去思考,利用眼球-大脑的这种联系,我们可以利用眼球运动来解读人的行为【1-4】

1、VR模式下的眼动数据采集

1.1、构建VR场景

首先,利用全景摄像机对工作点进行全景拍摄,然后将图像输入到Unity3D引擎中,生成全景球面的模型。这里要说明的是,在Unity3D中,球形模型的法向线必须倒置到里面,以便观看者可以看到全景图的内部。本文所使用的硬件装置是 ViveProEye头戴式显示器。该装置与 Fobii眼动仪结合,可同时完成 VR场景的观察和眼动的数据收集。利用系统所提供的SDK,实现了全景场景的程序设定,使受测者能够在坐标原点进行观察。

1.2、眼动行为分类

人的眼睛在时空上的取样能力,使我们无法从周围的环境中获取可视化的信息。当我们将视线从视野中心移开时,我们的视觉准确度会急剧降低,因此我们必须使用一系列的眼动行为来让我们的视线聚焦于物体。在我们的头不动时,眼睛的运动主要是眼的跳动和注视。但是,在我们运动或者物体运动的时候,其他的眼球运动也会被激发,以保证中心窝的视野可以停留在目标之上。分散式移动可以让我们的注意力集中在不同的目标上,稳定的追踪可以让我们的注意力集中在移动的物体上,而前庭的眼球反射可以让中央窝视野保持在兴趣点。因此,眼动行为在我们对可视信息的处理中扮演了重要角色。

1.3、眼动数据特征提取

利用最直接的热力图方法对眼动数据进行特征提取。热点图显示了不同环境下受测者的视野分布。与传统的扫描路线方法比较,该方法没有给出观测顺序,但是可以有效、直观地显示出许多可视重点区域。该热点图可以包括用户注视点数量、注视累计持续时间、注视点分布等信息。

2、全景模式下图像识别技术

2.1、全景图数据集

在卷积神经网络中,目标的识别是利用图像的特征来进行目标的识别。选择卷积神经网络的训练图集是影响识别效果的关键。目前已有的成熟图像数据集均为一般图像,它们包含了图象与图象中物体的标记。但是,由于一般影像与失真、剪裁的全景影像存在较大差异。用这种方法来进行全景图像的识别是不太有效的。要解决这一问题,最好的办法就是建立一套完整的全景影像数据集。但是目前还没有成熟的、开放源码的全景影像数据集。在建立数据集时,需要进行大量的图像收集和人工标记。本文通过对现有的图集和全景图像进行转换,以达到有效的训练。

全景图像的成像与一般影像有很大差异,采样方法也不同。在全景采样中,变形、分割等问题都会影响到目标的辨识。本文利用经纬坐标系统,利用二维矢量法对全景球进行了取样。具体的步骤如下。

(1)、输入:在一张普通图象和图像中的标记信息,该标记中包括该目标的定位包围盒与该目标的特征信息。一般情况下,包围盒的位置大小是归一化的数据,从0到1,分类用正整数表示。

(2)、图像变换:图像变换是指把一般图像与目标的标记信息转化为与全景失真一致的图像与标记。图像变换的过程可分为正运算与逆运算两种。正运算用于对一般图象的标记进行变换,而逆运算用于对一般图象进行变换。把全景球面上的点与二维全景图像上的点一一对应起来。

(3)、图像处理:在变换后的图像中,任意地分割出一个像素矩阵,并将其的像素分割为卷积神经网络所需要的大小,将其用于卷积神经网络的训练。根据裁剪出的像素矩阵,对其进行修正后,得到的目标标记信息被用于卷积神经网络目标输出的训练。目前已有的目标识别方法都是通过对训练后的图像进行处理,从而使得卷积神经网络能够适应不同的环境。

(4)、训练:利用卷积神经网络进行图像和数据对象的进行训练,在卷积神经网络的 Loss函数达到一定的收敛后,即训练完成。

2.2、全景图像识别

前面提到的全景影像可以通过沿着经线展开的全景球面来获得,但是经线所经过的对象会被分割。在进行目标辨识时,将被划分为两个对象。在一幅长宽比为2:1的全景影像中,我们将影像按照两条互补的经线进行分割,再将其合成一幅正方形影像,刚好符合1:1的卷积神经网络。

3、基于动态范围的眼动数据与元素关系映射

通过对图像进行识别,可以获得一幅包括该对象包围盒的完整图像。由于此前是把两幅经线互补的剪切图合并为一幅图,所以要对所识别的图象进行逆向操作,再把图象剪断,就可以获得两幅完整的全景图。然后用Unity3D引擎对程序逻辑进行编辑,并将其与原始的全景图和眼球运动数据相融合。

将所获得的两幅全景图像重新输入Uni-ty3D,并与原始的全景图像相匹配。在此,利用程序来控制球面影像的显隐,要注意的是,识别带有物体包围盒的全景影像,是由两幅互补的全景影像组成的,由着色器进行图像的叠加,以使物体的包围盒不会彼此遮挡。

在试验中,受测者戴上头盔,通过对原始场景的观测,得到了眼动数据。在前文中,可以将眼动数据直接叠加到全景球上,并以热力图的形式进行显示。由于采用了三维立体坐标系统,所以眼动的注视点坐标和球面上的像素坐标一致,从而可以判定眼球运动数据是否落入了图像的包围区域,从而判定受测者对目标的关注程度。

4、结论

文中提出了一种基于变形与切割的算法,避免了缺乏全景数据训练集的问题,但是并不能从根本上解决原始全景图的获取与标注问题。我们将在以后的研究中建立一个全景数据训练集,以弥补这一方面的缺陷。

参考文献

[1]张一鸣.全景图像中的实时物体识别[D].上海:上海交通大学,2018.

[2]臧伟.基于VR眼动数据的空间环境信息采集分析方法和应用探究——以喀什高台民居保护与设计为例[D].上海:同济大学,2020.

[3]程时伟,孙凌云.眼动数据可视化综述[J].计算机辅助设计与图形学学报,2014,26 (5).

[4]洪帅.基于VR的城市三维模型视觉变量分析关键技术研究[D].南京:南京财经大学.