移动增强现实可视化综述-期刊天空网手机端

　　摘要: 增强现实在过去几年中得到了长足的发展, 尤其是移动智能设备的普及使其有了重大的突破. 增强现实作为一种新的人机交互技术, 可以更直观地展示现实场景中的物理对象和数据信息, 越来越多的研究者开始探索如何将数据可视化与增强现实结合. 文中将系统地介绍移动增强现实技术的发展现状和目前增强现实在数据可视化中应用所取得的成果. 通过分析不同案例来讨论增强现实在数据可视化中应用的可行性; 最后, 总结了目前数据可视化和增强现实结合所面临的挑战以及未来的研究方向和机遇.

移动增强现实可视化综述

　　关键词: 增强现实; 可视化; 移动; 人机交互

　　当前是数据时代, 更是移动互联网时代, 移动智能设备在近年来各大厂商的激烈竞争中突飞猛进地发展, 其强大的计算能力、各式各样的传感器和稳定的网络连接, 使其成为移动互联网时代每个人必不可少的设备. 伴随用户的频繁使用, 移动设备中每日产生和交换的数据呈指数级增长, 使其成为了不折不扣的移动数据终端. 1992 年, 增强现实(augmented reality, AR)由 Caudell 等提出[1], 是一种将虚拟和现实结合的技术, 使得数据信息更直观地展示在真实的物理环境中. 经过长期的技术积累, AR 已经从实验室走出, 应用到了工业界[2]. 根据 Google Trends, AR 应用数量在 2012 年达到峰值[3], 又在 2016 年迎来爆发式地增长, 且还在上升期. AR 能给用户提供一种新的用户界面和人机交互方式, 不管是数据可视化还是移动设备发展至今, 都急需一种新的交互方式打破局限; 同时再考虑到移动智能设备中不计其数的数据, 越来越多的学者开始探究如何能将移动设备中的数据更为自然和科学地展现在用户面前.

　　因此, 移动 AR 可视化作为一个新的研究方向出现, 其致力于研究如何将数据信息或虚拟对象展现在真实的物理场景中. 本文将介绍移动 AR 可视化相关概念和一些关键技术, 从其优劣势 2 个方面阐述其可行性, 并列举其应用场景, 最后总结与讨论该方向未来的挑战与机遇.

　　1 移动 AR 可视化相关概念和技术

　　1.1 移动 AR 的定义

　　目前被广泛接受的是 Azuma 等[4]的定义: 满足结合虚拟和现实、实时交互、注册于三维中 3 个条件的即算做 AR. 简单来说, 就是将计算机生成的数字图像叠加到现实场景中去, 且能实时交互. 实现 AR 所需的主要硬件组件至少需要计算设备、显示设备、追踪设备和输入设备. 计算设备通常是处理器, 而显示设备可以分为 3 类: (1) 头戴式显示(head-mounted display, HMD), 例如, 微软 (Microsoft)的 HoloLens、谷歌(Google)的 Google Glasses 和 Facebook 的 Oculus Rift; (2) 手持显示 (handheld display), 例如, 我们日常使用的手机和平板电脑; (3) 空间显示, 即直接把虚拟影像投影在现实场景中.

　　移动 AR 不仅要首先满足 AR 的定义, 还需要满足以下条件[5]: (1) 可穿戴的输入和交互技术, Carmigniani 等[6]把能让用户移动出室外的无线设备定义为移动设备. (2) 无线网络, 保证与其他设备的数据交换或让用户与其他人协作等. (3) 数据的存储与读写技术, 移动 AR 设备理应做到能提供当前环境中相关的数据. 根据此定义, 显然上文提到的 AR 中的第 3 种显示方式——空间显示, 不属于移动 AR, 所以它不在本文的讨论范围内.

　　1.2 AR 可视化的定义

　　Kosara[7]曾提出什么才算作可视化: 首先，可视化是基于非视觉(non-visual)数据, 即数据是来源于可视化程序之外的抽象数据. 可视化不是图片处理或摄影, 如果源数据是图片, 且直接放在了生成的可视化结果中, 则这不算作可视化. 其次要生成一个图像来展现数据信息. 最后, 可视化结果必须是人们可以认知和理解的. 根据此标准, 我们可以得出 AR 可视化是将非视觉数据经过处理, 生成可供用户理解的数字图像后, 将其叠加到现实场景中供用户实时交互的技术.

　　1.3 AR 实现的方式和关键技术

　　AR 的主要实现方式有 2 种[2,8]: 光学透视式 (optical see-through)和视频透视式(video see-through). 目前, 市面上的头戴式设备通常采用 2 种方式中的 1 种或 2 种都采用, 而采用视频透视式的设备则是手持设备. 光学透视式是将电脑生成的数字图像显示在眼前的一层半透明镜片上, 这样就可以使现实场景和虚拟信息同时出现在视网膜上. 而视频透视式技术是将现实场景首先通过相机录入电脑, 经过和虚拟对象整合、压缩, 再统一呈现在用户眼前. 两者各有优劣[9]: 光学透视式中的现实场景因为没有经过电脑处理, 因此显示得更自然、直接; 虽然它实现简单, 但是也存在定位精度不高、匹配不准确、显示有延迟等问题. 而视频透视式因为经过整合, 所以匹配准确, 最终显示效果同步程度高, 还能对生成的显示结果根据用户需求进行进一步处理; 但是它实现难度较高, 且丢失了一部分真实感.

　　计算机视觉技术在 AR 中起着至关重要的作用. 要实现 AR 最核心的是识别与追踪. 首先, 相机要先识别基准标志、关键点、光学图片等; 然后再根据特征检测、边缘检测或其他图像处理方法来实时追踪; 最后将虚拟图像叠加到真实场景中. 根据 2008 年的统计结果显示, 近十年著名的 AR 会议ISMAR中有关追踪技术的论文占到了20%以上[8].

　　1.4 移动 AR 可视化流程

　　由以上概念, 再结合传统数据可视化流程, 不难总结出 AR 可视化的流程: 设备(头戴式或手持式)依靠摄像头采集现实场景中的图片, 再通过计算机视觉算法识别和追踪图片中的对象; 同时, 设备由各类传感器、数据库或网络收集数据并进行数据处理、分析, 进而生成可视化结果; 最后结合识别出的场景渲染到浏览器或相机中. 如果设备自身算力不足, 可以通过网络连接远程计算机或云端进行协助计算. 整个流程如图 1 所示.

　　2 移动 AR 与可视化结合的优势

　　当前数据可视化领域开始探索如何用更新的方法和工具让用户更有效和快速地从数据中得到想要的信息. 一种新型的观察视角或交互模式[10], 往往能启发用户或研究者从另一个视角去思考问题、探索数据. 将可视化与 AR 结合起来, 比以往的数据可视化方式有了很多突破.

　　2.1 AR 与可视化结合的优势

　　2.1.1 视野扩大化

　　首先, 尽管当前 AR 设备的视窗还较小, 但它却可以把整个现实场景当做数据可视化的背景. 其次, 由于整个现实场景都是呈现在用户眼前的[11], 所以不会丢失现实场景中的数据信息. 用户可以结合现实场景与生成的数据图像进行数据分析. Ren 等[12]设计了一个虚拟现实系统用来模拟当 AR 场景大到足够环绕全部用户的情景, 如图 2[12]所示. 图 2 背景为卢克索神庙, 以红蓝浮雕模式等角投影到场景中. AR 可视化结果包括图表、地图、照片和连接三维雕像的连接线. 该系统将用户分别置于全环绕型的 AR 场景和小视窗 AR 中, 并给用户分配了特定的检索任务; 对比发现, 在全环绕型的 AR 场景中用户完成任务的效率显著提升.

　　2.1.2 现实元素抽象化

　　现实中的事物都可以抽象成数据. 单纯的数据可视化是将数据处理后用恰当、美观的方式展现在用户面前. 将抽象、非视觉的数据映射成可视化图形的过程称做视觉编码, 其中的映射方式称做视觉通道, 不同类型的数据需要不同的视觉通道来编码; 反过来, 从图形理解数据的过程称作解码. 如果将数据可视化和 AR 结合, 就可以把现实中的物体或元素直接运用在可视化设计中, 视觉编码的减少自然也就减少了用户解码的成本. 实现 AR 需要识别和追踪, 其中通过特征检测即可识别出现实场景中的对象, 这样就可以将其视做一个可视化元素, 即以前用图标(icon)或标记(marker)来代表的事物, 现在直接用现实元素代替. 视觉通道的减少既能减去用户解码的过程, 使用户更直观地理解数据的含义, 还能保留数据可视化最终呈现的结构. 不夸张地说, 只要数据可视化结果是呈现在现实场景中的, 那么你可以把场景中的任何一个东西都当做可视化元素.

　　2.1.3 交互直观化

　　传统意义上的数据可视化通常是在一个屏幕上显示, 有可能是桌面端、浏览器端和移动端. 桌面端和浏览器端通常的交互方式都是通过鼠标的点击、拖拽或刷选等; 而移动端的交互通常是点击屏幕、旋转屏幕、长按屏幕, 多指滑动、多指张开闭合等操作. 尽管这些操作已经非常便捷, 但仍有一些学习和理解成本, 对于三维模型来说也不是很恰当[13]. 而 AR 中的交互: 眼动、凝视、轻触、手势[13]或语音等更加符合人类直觉.

　　目前主流的交互方式可分为 3 种: 有形交互、手势或体感和混合交互. 有形交互是指将一些设备作为虚拟与现实的媒介, 通过操作该设备来达到操控虚拟对象的效果. 得益于各类传感器和摄像头, 手势和体感交互没有操作设备, 而是通过对自身手势或体态的识别来进行操作. 前 2 种交互方式的关键点都是通过恰当的隐喻把操作与虚拟对象映射起来[14]. 典型的如体感运动游戏的交互, 计算机识别自身做出挥拍、击球等动作之后, 让游戏中的角色也做出同样的动作. 混合交互一般是将前 2 种交互方式和语音、眼动等结合; Irawati 等[15] 发现, 把语音交互整合进系统之后, 用户完成任务比单纯用有形交互快了 35%.

　　2.1.4 协作便捷化

　　大多数 AR 都可以做到多人共享同一个场景. 若将数据可视化结果用 AR 叠加到现实场景中, 虽然是同一数据生成的可视化结果, 但不同用户的视角不同, 得出的结论也会略有不同. Dong 等[16] 实现了这样的系统, 使用户能围坐在桌前分析同样的可视化结果. 众所周知, 数据可视化是把人类智慧融入到了数据分析中, 那么 AR 可视化就是将多人的智慧同时融入, 使数据分析不仅非常高效便捷, 而且减少了单用户的视觉盲点, 避免了单一论断. 此外, AR 可视化还能让交互协同, 一个用户的交互操作另一个用户一目了然. Fuhrmann 等 [17]设计了一个在 AR 环境中支持多用户协作的三维科学可视化系统. 其中, 协作交互功能包括社交交互、共享交互和特定用户交互. 他们发现用户在使用过程中非常喜欢围绕三维可视化结果或置身于其中从不同视角观察, 不同用户擅长的知识领域不同, 可以通过协作交互来交流自己的认知, 使得研究和分析效率显著提高.

　　2.2 移动 AR 设备进行可视化的优势

　　移动 AR 设备无论是头戴式还是手持式, 其作为数据可视化的新型设备, 目前都有了突飞猛进的发展. 首先, 这些设备已经走入人们的生活, 尤其是智能手机和平板电脑, 其普及性和便携性比头戴式设备都高, 已经是人们日常生活不可或缺的设备. 其次, 它们的性能有的甚至已经赶超个人电脑, 对于基本的数据处理和渲染任务性能已经绰绰有余. 而且, 通过各式各样的传感器和无线网络, 这些设备无时不刻不在产生、交换、处理数据. 比起传统的数据可视化数据要从数据中心或数据库中读取, 它们自身就是一个庞大的数据仓库.

　　此外, 目前的手持设备, 如智能手机和平板电脑已完全符合移动 AR 的硬件要求并有不错的表现, 而头戴式设备则有的组件还略有缺陷, 具体而言手持设备在以下 2 个方面比头戴式设备有优势.

　　2.2.1 追踪

　　计算机视觉中的识别和追踪是实现 AR 至关重要的技术. 相对于头戴式设备, 目前的智能手持设备具有数码摄像机或其他光学传感器、加速器、全球定位系统(global positioning system, GPS)[3]、陀螺仪、电子罗盘、射频识别(radio frequency identification, RFID)和无线传感器. 以上这些组件和技术, 使得其追踪和识别的准确性大幅提高.

　　2.2.2 网络

　　尽管目前智能设备的计算能力已经今非昔比, 但要面对 AR 计算机视觉中密集的计算还是有所不足, 因此还需要网络连接远程计算机或云端[18] 作为算力的后盾[10]. 由于密集和实时性的计算需要大量的数据交换, 因此对网络带宽和稳定性有很高的要求. 尽管头戴式和手持式设备都可以通过无线网络连接到互联网, 但智能手持设备如手机, 在移动网络基础设施方面已经非常完善, 所以比头戴式设备更有优势.

　　3 移动 AR 可视化的局限和现有的解决方案

　　3.1 性能

　　当前科技发展日新月异, 尤其是 AR 在近几年中的发展可谓是突飞猛进, 全球各大科技巨头公司都相继研发了自己的 AR 设备. 虽然很多设备包括智能手机和平板电脑的性能已经赶超个人电脑, 但相对于大数据分析的体量, 还是不足以胜任. 而另一方面, 实现 AR 和可视化依赖于大量的计算机视觉技术, 如实时的特征检测、边缘检测、追踪、实时渲染等其对于性能的要求特别高[11,19]. 一般的标记、基准图识别目前尚且不是很准确, 要做到真正的场景融合就更是困难重重. 而且对于一定体量的数据可视化结果, 渲染到真实场景难免会出现失真卡顿等现象.

　　相关知识推荐：每个期刊都要查重吗

　　目前可以通过连接远程大型机器或云端来解决上述问题; 于是, 网速就显得至关重要. 头戴式和手持式设备都可以通过无线网络来连接, 而传统的蜂窝网络传输速率仍较慢[20], 其单位时间传输的数据量太小导致无法胜任. Prochazka 等[18]通过用远程连接云计算的方法, 使用复杂的神经网络图像处理方法来提高精确度.

　　3.2 屏幕、视窗大小

　　正如前文所述, 目前的 AR 设备的屏幕和视窗都比较小, 分辨率也较低. 这导致目前的 AR 效果像是将一个显示器窗口叠加在现实场景中, 突兀感很强[21], 这在一定程度上局限了人们数据分析的效率. 由于视窗较小, 只能展示部分甚至局部数据, 无法概览全局. 经典的解决方式有 2 种, 即概览加细节和上下文加突出重点, 通常用鱼眼(fish-eye) 效果来高亮重点信息. Chittaro[20]也提出了用提示加隐喻, 以及直接导航或映射的解决方式. Yoo 等[22] 为了应对移动设备屏幕大小的问题, 指出要按照数据的类型来设计不同的布局, 其将数据分为队列型和关系型 2种: 队列型数据用简单的列表布局, 关系型数据用雷达放射图等布局.

　　3.3 识别、追踪、定位和自适应

　　与固定设备不同, 移动设备对目标物的空间特性, 如位置和朝向的定位更加困难[23]. 而且移动 AR 设备对用户视域内物体可视部分的识别效果不佳[21], 可能造成数据可视化结果的不正确放置. 由于移动设备自身位置不固定, 可视化结果的显示位置也不固定, 所以每次位置的变化使得无论是识别还是渲染都不得不重新再来[21].

　　3.4 内容管理

　　由于 AR 可视化是将虚拟对象放置在现实环境中, 那么现实环境的复杂变化无法使用户集中注意力[20], 如用户在驾车或者在拥挤的地铁站赶路时的专注力肯定不如在安静稳定的环境中. 而且, 外部环境的变化也容易影响可视化结果, 除非可视化的结果能随环境的快速变化实时做出调整.

　　除此之外, 随着数据量或虚拟对象在视图中的增加, 视图也会显得凌乱, 用户很难从中有效地获取信息, 因此信息密度[23]也是 AR 可视化中很值得深思熟虑的. 一般有 2 种方式解决, 减少或过滤冗余数据 ; 以及重新排布数据或虚拟对象 . Tatzgern 等[24]用层次聚类的方式提供了一种自适应的数据呈现方式, 从而保证视图的信息密度恰到好处. 如图 3[24]所示, 他们设计了让用户从该 AR 可视化系统中找到特定书籍的任务, 用户明确表示自己更愿意使用他们设计的自适应视图. 如图 3a 信息混乱, 给找书造成了困难; 而图 3b 经过聚合, 可以更好地概览图书馆书籍信息, 提升找书效率. Madsen 等[25]提出了一种 AR场景中时间一致性的方案, 其评估了 AR 场景中的数据注解的多种显示方式, 得出结论: 应该用连续型的计算来更新数据注解位置, 而不是用离散型的延迟更新方法.

　　4 移动 AR 可视化的应用场景

　　移动 AR 设备的普及和数据量的增多使移动 AR 可视化的应用有了无限可能. 根据应用领域, 现阶段移动 AR 可视化大致可以分为以下几类.

　　4.1 实地工作

　　三维立体效果往往比二维平面图纸更加直观, AR 可视化可以通过传感器收集的数据、开发者提供的数据生成各类三维模型显示到现实场景中. 这对实地工作, 包括建筑业[26]、维护[27]、勘探和装配[28]等工作者提供了更加直观的理解. Figueiredo 等[29]将此应用到了工程学中, 将各类工程零件 AR 可视化出来, 帮助学生加深理解. Schall 等[30]就开发了一个手机应用, 可以像 X 光一样生成建筑或设施内部的框架结构. Schall 等[31]还提供了一个 AR 的测绘工具, 让有经验的工程师使用传统技术和完全没经验的工程师使用该系统进行对比, 最后发现其在交互性方面胜过传统技术. 地面打孔也是常见的实地工作, Lee 等[32]开发了一个能快速搜索钻井日志并通过 AR 可视化出来的系统, 为此他们还专门设计了一个钻井日志的数据库. Kollatsch 等[28]还用 AR 进行了装配流水线相关的信息可视化.

　　4.2 地理相关

　　GPS 目前几乎每个智能设备都会配备, 这为设备获取地理信息和定位提供了巨大的便捷. 再加上地理信息系统(geographic information system, GIS) 的迅速发展, 城市数据[33]、交通数据、兴趣点(points of interest, POI)等数据都有了一定的规模, 因此很多移动 AR 可视化都是基于地理信息的, 包括城市相关数据、导航和旅游业等. Schubert 等[34]构思了一个城市设计工具, 通过 AR 可视化的方式让专家进行实时协作设计. Hedley 等[35]设计了一个结合虚拟现实和 AR 的地理探索应用, 用户需带上一个轻型 AR 设备, 就能在沉浸式环境中沿地图和三维模型探索. Schinke 等[36]直接将 POI、迷你地图、导航箭头显示到智能手机的相机中, 用户通过该应用可以高效地分辨出这个 POI 点的类型. Gerstweiler 等[37]用即时定位与地图构建(simultaneous localization and mapping, SLAM)技术实现室内场景的识别与追踪, 结合 POI 数据, 能给用户提供持续的室内导航. Hervás 等[38]同样是基于 POI 数据, 提供的是室外导航. 旅游业也从 AR 可视化中受益. Fiore 等[39]开发了一个 Android 应用, 其根据 POI 整合了景点的历史文化信息, 给旅游者提供 AR 的体验.

　　4.3 教育和娱乐

　　AR 可视化由于它的直观和强交互性, 使其在教育[40]和娱乐方面大放异彩. 在教育方面, AR 可视化的应用主要分为 3 类: 建模型、探索型和 AR 图书[41]. 第 1 种大多用在需要立体模型的场景中, 例如, 天文学、化学、生物学、建筑学、工程学[29]、设计[42]和几何学等. 不难理解, 如果没有 AR 可视化, 这些学科都需要我们自己去想象其三维结构. Fonseca 等[43]分别用传统的学习方法和 AR 的学习方法让学生去学习建筑学知识, 以测试学生的学习效果, 发现学生用后者学习对“空间”的理解更深刻, 甚至直接导致他们的课程评估分数变高. AR 也能促进学生的自主和合作学习, 如 MartínGutiérrez 等[44]设计了 3 种 AR 应用, 分别从理论和实践两方面教授学生, 受到了学生一致好评. 第 2 种以 AR可视化在博物馆中的应用为例[45]: 参观者可以通过头戴式设备仔细端详工艺品的全貌, 还可以用智能手机扫描二维码, 从而出现带有工艺品数据信息和工艺品模型相结合的 AR 展示. 另一个例子是 Fragoso[46]开发的一个 AR 翻译器, 通过光学字符识别(optical character recognition, OCR) 识别任意场景中的字符, 经翻译后无缝替换原场景中的文字. 第 3 种 AR 图书被 Billinghurst 等[41] 称做“魔法书”, 通过设备扫描图书即可出现有关图书当前内容的虚拟模型 , 使图书更加生动 . Nguyen 等[47]设计了一个用户可交换、可编辑的说明书, 生动地引导用户一步步操作. ——论文作者：高翔1), 安辉1), 陈为2), 潘志庚1)*

您身边的学术顾问

移动增强现实可视化综述