Login

020-123-1374leyusports@szegm.cn

  1. 乐鱼 > 新闻动态 > 媒体报道

谈谈Vision Pro的长期意义:十年内数字内容将重塑物理空间

作者:小编 日期:2024-02-14 13:21:21 点击数:

  谈谈Vision Pro的长期意义:十年内数字内容将重塑物理空间研究未来,就不能不研究过去。我们不能孤立地看某一款设备,而是应该从行业整体的高度来看待行业的发展。就好像iPhone并不是横空出世,在此之前也有这样和那样的设备分别从不同的角度验证了移动设备的价值。而对于一个已经花了近千亿美金的XR行业,总结前人的经验显得更加重要。

  XR行业和智能手机、智能手表、个人电脑等行业有个最大的不同,就是头戴式计算设备目前很缺乏产品验证的历史。电脑上市前,我们已经有近一百年时间验证了打字机的价值,也有小几十年时间验证了电视机的价值。智能手机上市前,我们验证了电话、验证了手机、验证了PDA、验证了MP3、验证了Game Boy。而头戴式计算设备对于重量、技术的苛刻要求,导致虽然在科幻小说中的提及率很高,但真正大规模从概念走向商品,也就近十年的事。所以研究XR行业的产品,只要集中看过去十年即可。

  与普遍认知提到的沉浸感一词所不同的是,在千万级用户的层面,过去十年真正验证成功的只有一件事,就是三维交互的价值。简单来说,就是由头手追踪构成的三维交互,可以完成键盘、鼠标、手柄、触屏构成的二维交互所不能完成的事,所以有了VR的FPS,模拟真实的架枪、瞄准,有了音乐动作游戏Beat Saber,模拟刀剑切割方块,还有社交产品VRChat,进行全身动捕,还有Gorilla Tag,模拟双手运动。此刻,全球大约有接近1000万的VR月活用户。

  有人说Quest 2是游戏机,说这些用户是游戏机用户,这是相对片面的看法,其实Quest生态里也有不少娱乐应用和行业应用。而且我更愿意认为,这些用户本质上是三维交互的用户。

  随着开发者的理解日益深刻,三维交互带来了全新的产品设计思路。在《绝地求生》和《和平精英》的玩法里,传统的跳伞环节是在手机和电脑上通对地图手动选点完成,而在VR游戏Contractors:Showdown(Contractors吃鸡玩法的新作,年内上线)里,你将会真的从万米高空中的军用运输机里往下跳。而在路途中查看地图时,传统交互是弹出一个地图窗口,而这里你将会真的掏出一台军用手持GPS。

  过去十年,还有很多没有验证成功的事。首先就是三维显示,包括大家曾经看好的VR视频,因为显示技术的原因,除了画面大,实际消费者感受到的分辨率和显示效果是弱于传统平面显示器的。然后是MR混合现实,Magic Leap和HoloLens这两款投入了几十亿美金的设备,也因为显示和算力等综合技术路线B,非常艰难地生存着。最后是AR眼镜Google Glass,虽然引发了巨大的社会讨论,但也只是昙花一现。这些方案本身并非一无是处,放在当年都有天才的洞察之处,但或多或少因为技术上或产品上的缺点和局限而陷入了困境。

  2024年2月2日,Vision Pro正式上市。我仍然想强调一下的是,Vision Pro不是突然发布的,苹果为此已经准备了9年。苹果2015年就已经挖来了前Dolby的高管Mike RockWell,组建团队进行XR设备的开发,并且苹果的开发也并非一帆风顺,传言还在2019年大幅更改了产品原型。

  接下来我们分析Vision Pro,我想说,这里面并不仅仅是技术层面的问题,也不仅仅是工程层面的问题,还包括从产品层面,从生态层面等不同角度综合理解XR。理解XR有一个典型的误区,就是简单地把计算设备这件事当成是硬件的事或者科技的事,研究设备也仅仅只是从参数出发,甚至有人评价Vision Pro是苹果的极致堆料,我完全不赞同这个结论和这种分析方式。其实围绕平台级计算设备的设计是一件相当整体的事乐鱼,这里面包括硬件,包括OS,包括第一方应用,也包括第三方生态,这不是割裂的几部分,而是一个有机的整体。况且,我们研究的是下一代计算平台,这一次没有后视镜,也没人给你现成的答案,是需要通过独立思考,吸取前人的经验教训,形成一整条产品主线,一整套底层的产品设计理念来指导我们的研究。

  接下来我要讲的所有的进展,我认为会起源于Vision Pro,但不止于Vision Pro。一方面,各家厂商肯定会快速学习。另一方面,Vision Pro上市后,也会根据消费者、开发者的反馈,更进一步。所以希望大家能够动态地、辩证地看待Vision Pro的设计,而不是仅仅把目光局限、固化在某一家某一代的设备上。

  在谈三维显示之前,我想从用户的角度讲讲使用二维平面显示设备的心路历程。我们大部分人都是从90年始接触电脑、电子游戏机等设备的。我们使用电视和显示器,最早是320X240的分辨率,再然后是640X480,1024X768,1080P,4K,在我的记忆中,每一个时期的显示效果都觉得还不错,以至于现在还能回过头玩一些像素风的老游戏。再看手机也是,iPhone4 有了视网膜屏很好,但是之前也不错。总体二维平面显示给我们的感觉就是分辨率差点我们也能接受,好点当然更好,好到一定程度(视网膜屏)再往后体验提升就不明显了。一句线多年平面显示器的分辨率提升带给用户的体验提升是渐进的,是一种量变。

  Vision Pro 是40PPD,一定程度已经接近人眼极限。同时,Vision Pro采用的是OLED屏幕,这意味着更丰富的色彩和亮度。此时将会发生一个巨大的质变。用户可能无法区分现实和虚拟。举个例子,苹果的官方网站上有苹果iPhone15手机的三维模型,如果你下载下来,旁边再放一部线,乍一看,你有可能无法区分哪个是真的哪个是假的。再举个例子,Vision Pro主界面里有一个Environment的环境背景,其中一个场景是当你望向湖面波光粼粼,你一度会认为自己真的身处湖边。我对这个阶段的显示效果定义为真实感。

  当数字生成的虚拟物体从视觉上已经和真实物体相似,我们还会说画面很好吗?也许画面、画质这个概念都会消失。

  苹果在这代设备上的核心思路,为了保证跨越时代的显示标准能够被消费者看到,才对重量、体积和外形设计进行了巨大的妥协,这是产品设计上的一个巨大的取舍。

  我首先想到了iPad发布会。iPad发布会上,乔布斯提出了一个问题,市场上是否会容纳一种新型的设备,这是第三类设备,介于智能手机和笔记本电脑之间。这个设备在做一些重要任务时的表现能显著超过手机和电脑才能被市场接受,他接着举例,比如上网,查看邮件,观看欣赏照片视频,听音乐,玩游戏,读电子书。在这些应用上,第三类设备可以提供比笔记本电脑和智能手机更好的使用体验,否则没有存在意义。

  通过历史,我们可以站在更高的一个维度去看待这个问题,你会发现过去五十年,人类不断地制造各种设备,智能手机、Pad、电脑、电视、投影仪。这一系列设备,可以被认为是一系列从小到大、比例不一的屏幕,从横屏到竖屏,从4:3到16:9到21:9,各种各样。而这一系列设备又被用来适应我们所处的不同环境,完成不同的任务。

  根据实际的用户体验,在20PPD的清晰度下通过VR里生成的虚拟大屏观影大致等于720P的真实平面显示器。因此,在习惯了接受1080P的主流平面显示器下,用户对于之前VR的大屏幕显示并不感冒。但是在40PPD下,虚拟屏幕的显示质量已经几乎相当于4K显示器的效果。这意味着虚拟屏幕头一次可以和实体平面显示器正面PK。另一方面,Vision Pro采用的是OLED屏幕,这意味着丰富的色彩和高亮度。于是,无数个、无限大小、自由形状、近似真实色彩的屏幕突然出现你身边的三维空间中。

  OST的优点非常明显,等于戴上眼镜透过镜片直接看外界,但是OST的缺点也非常明显,普遍会遇到在镜片上显示数字内容很难,会面临FOV(Field Of View视场角)小,色彩、亮度都不够的情况。另外,由于是同时接收光信号和数字信号,让用户感知到虚实融合也会更难。这里面的差距过于巨大,以至于完全解决至少需要下一代的显示技术。

  VST正好相反,显示数字内容天然容易,能高质量地实现大FOV,丰富的色彩和自然的亮度。另外,由于VST最终都是转化为数字信号呈现,实现虚实融合也更容易。难点在于高分辨率,以及通过摄像头捕捉现实世界、生成视频、传输视频带来的延迟。显示分辨率的问题前面已经提过可以解决,为了解决延迟Vision Pro采用了一颗和M2芯片级别相同的芯片R1来解决这个问题,将延迟缩小到了12毫秒。

  广义上我们可以认为空间计算包含一切,三维显示、三维交互、VR、AR、MR都是它的子集。这里空间计算首先是和平面计算相对应的。平面计算设备处理文字、图片、语音、视频。平面计算机包含智能手机、笔记本、Pad、电脑。而空间计算则是处理空间中的数据,感知、理解空间中的各种实体和虚拟物体。头戴式显示器就是典型的空间计算机。

  狭义上我认为空间计算就是指计算空间中的物体数据。在Vision Pro中,空间计算的应用刚刚开始。一个虚拟的物体放在物理空间中,要想和现实无缝融合,则需要空间计算。物理空间中的环境光照,遮挡,物理实体的形状,理论上来说,都会影响虚拟物体的表现。举个例子,一个虚拟的电影巨幕,如何像真实的巨幕, 那么地上一定需要实时呈现光线的折射倒影。一个虚拟方块扔到实体的桌上,如何有真实的交互,那么一定要提前识别桌子的高度和平面,同时做出反弹的交互。

  苹果Vision Pro用的是数码旋钮,轻轻转动旋钮,对现实世界的透视可以从0到100%逐渐完成,0的时候是完全看见外面,100%的时候就是完全沉浸在虚拟空间里。虽然苹果严格禁止使用VR/MR/AR这几个词,也严禁说自己的设备是VR设备。但是我想说数码旋钮恰恰实现了从VR到MR的切换。Vision Pro可以作为VR设备存在,当旋钮转到100%时,你就进入了fully immersive(完全沉浸)的世界,那就是VR头显。当旋钮在0到100%范围内时,它就是个MR头显。

  我们生活在现实世界,比起100%的完全沉浸的VR,人在大多数时候对数字内容的需求并不需要到100%,而是在保证和物理空间有感知、有交互的情况下,增加数字内容,让数字内容和物理空间之间有一个平衡。在办公室,你也许只需要眼前60度的范围内有数字内容,其他空间用来和周围同事沟通交流。在咖啡厅,你也许只需要眼前30度的范围内有数字内容,在嘈杂的人来人往中,既有对空间的感知保证安全,又可以舒适办公。在客厅里,你可以让正前方的数字人给你上一堂健身课,同时回应小孩父母跟你打招呼。最后,夜深人静的时候,你可以享受一个人在书房不被打扰的、完全的沉浸感,即VR。

  我觉得从用户需求角度理解, MR则可以通俗理解为我们生活的物理空间中数字内容所占的比例,VR和AR是不同比例的MR。100%是VR,0%是完全物理世界,0到100%之间是MR。

  visionOS其实做了一件非常重要但容易被忽略的事,就是OS层面的交互逻辑。Quest没有OS层的大规模交互,因为它是单窗口,迅速进入应用的一套流程,并没有在空间中和多物体多窗互。苹果对OS层的设计显然要复杂很多,对空间中元素也做了充分的定义,不论是多物体还是多窗口,就必须就要有一种交互方式来处理,这种交互既要自然,又要高效。所以苹果应该是花了相当大力气来设计这套手眼交互逻辑。

  但是难点是如何用手同时兼顾虚拟物体和虚拟窗口的交互,这是两种完全不同属性的元素但又出现在同一空间中。在这个基础上还要足够高效和自然、节省能量。苹果设计了一套非常简洁的手势交互逻辑,通过手指捏合、点击与手腕轻微移动来完成。

  这是一种无比奇妙的感觉。你会觉得你有超能力。你甚至会拖拽、放缩窗口玩上一整个小时,就像小孩子在房间中随意堆满玩具一样。

  另外,XR社区的开发者都因为Vision Pro没有提供6DoF(6自由度,支持三维交互)的手柄而感到费解。我倾向于认为这只是个时间问题,当前这个阶段苹果和Meta的思路不同,Vision Pro提供的手眼交互是在OS层为了多窗口多应用的交互,而Quest提供手柄交互和手势追踪是在单应用下的交互,苹果会先做OS层再做应用层。我这里有个猜测,随着版本的更新,第二步Vision Pro就会更新类似Quest里的裸手追踪,第三步,就会增加对手柄和各种的支持,让我们拭目以待。

  用户曾经熟悉的二维应用都能在三维空间中使用,而在这里,曾经的每一个应用将化为空间中的一个切面,一个窗口。三维给了二维应用更加自由的使用方式。这有效弥补了三维计算设备在初期应用的不足,要知道目前Quest商店正式上架的游戏和应用总数也就大几百个。

  这让我想起十几年前,各大互联网公司内部都会有一个部门叫无线业务部,今天,没有一个部门叫无线业务部,但每一个部门都做移动应用。移动互联网的今天,就是XR的明天。今天,Meta的XR部门叫Reality Labs,字节的XR部门叫Pico,腾讯也有单独的XR部门,多年以后,互联网公司每一个部门都是XR部门但又不会叫XR部门。

  Vision Pro的策略大概率是在立足于已有二维平面生态的基础上,逐步完成对三维空间生态的支持。同样Meta也一定会全力迅速学习Vision Pro,我们应该会在不久的将来看到Meta的类Vision Pro产品。

  不戴眼镜你就看不清楚东西。我想要非常强调眼镜的这个基本功能,因为这个功能太过重要,重要到了让人习以为常,以至于大家都忘记了这个基本功能的存在。并且,眼镜通过过去两百年来的产品迭代,对外形对重量都形成了严格标准。比如近低于30克,墨镜低于40克。当然还有一些人群和特殊场景对重量还有20g以下的需求。

  高于这个重量或者对外形的变化,都会对产品产生巨大负面影响。比如说,比起动辄几百克的头显,七八十克的眼镜已经很优秀了,但是由于比普通眼镜还是多了很多重量,你就无法要求普通消费者像正常眼镜一样佩戴一整天,消费者就无法做到Always On。而基于Always On的后续产品设计都将失效。当然,在一些特殊行业特殊环境会有一些特殊的产品形态成立。

  Ray-Ban Meta,这一代几乎和一款普通墨镜有一模一样的重量和外形设计。翻看大量的用户评价,都会说到,这至少是款Ray-Ban的墨镜。就是这样,虽然我们讲音频、拍照、以及后期加入AI的智能功能,但消费者首先在意的是设计,是它是否socially acceptable。

  在这样一个标准下,这已经不是简单的信息分发,信息多少的问题,也不是多少虚拟屏幕替代多少实体屏幕的问题。而是我们面对的现实将同时充满由比特构成的数字物体和以原子构成的物理实体。在我们人类文明的几千年历史里,我们面对的始终都是物理世界,面对的始终是物理实体出现在物理空间里。哪怕经历了信息技术快速发展的过去50年,我们依然面对的是人们带着各种数码设备,设备里的芯片处理着各种数据帮助我们提升效率、改善生活质量。

  “我们以前总是用互联网渗透率来讲一个行业发展的程度,但如果我们讲数字渗透率的话,讲数字内容对物理空间的渗透,现在桌上的手机大约也就渗透了1%,还有100倍的增长空间。”

  真正需要我们接受的未来依然是现实世界。只是这个现实世界和之前有点不太一样。这个世界是由比特和原子共同构成。摆在我们面前的是,如何处理数字内容和物理空间的关系,如何建设一个由数字内容和物理实体共同构成的新现实世界。


随便看看