2

Apple Vision Pro 要上市了,来了解下它的前世今生

 8 months ago
source link: https://www.woshipm.com/ai/5976731.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Apple Vision Pro 要上市了,来了解下它的前世今生

2024-01-15
0 评论 432 浏览 0 收藏 24 分钟

不少同学都认为VR等东西是最近几年的产物,只是随着苹果发布Vision Pro之后,这个领域才被大众所知。其实,Vision Pro只是VR的其中一种路线,更强调其中的 VST 罢了。详细的原因,我们得从其历史说起。

4bfb484c-3699-11ee-a52b-00163e0b5ff3.jpg

Apple Vision Pro,预计今年 3 月起在美国地区发售,售价 3499 美元起,约合人民币 24851 元。自 2016 年始,这个苹果打磨了 8 年的产品,终于要向公众揭开它的面纱。

苹果将它的新产品称为「空间计算机」,努力撇清同 VR 间的关系。然而命名无非是玩弄心智的一种魔术,Vision Pro 的本质,仍然是 VR 的路线,只是,它更强调其中的 VST 罢了。

关于 Vision Pro 的文章/视频,市面上已有很多,而我更关注的是 Vision Pro 的背后——自公元前 4 世纪宙克西斯(Zeuxis)和帕拉西修斯(Parrhasius)在绘画竞赛中展现出「错视画」技巧后,这个世界究竟发生了什么?而技术的发展是否已使得我们进入王阳明所言的 “心外无物,心外无理” 的状态?

根据神经科学的研究,人类依靠五种感知系统获取世界的信息:视觉、听觉、味觉、嗅觉和体觉。这五种感官系统充当着「过滤器」的角色,外界的相关信息必须经它们的识别,才能被大脑接收,大脑对信息进行翻译后,形成最终的感知。每一种感知系统都有它的「过滤」规则,譬如视觉只能接收波长 380 至 760 纳米的电磁波,而听觉所感受到的振动频率限制在 20-20000 赫兹,被过滤的信息被传送到大脑后,也经由一定的规则,被翻译为「颜色」、「声音」。

现在,让我们进行一种假设:假如我们能同时搞懂感官系统的过滤规则和大脑的翻译规则,能否通过逆向工程,再造一个虚拟的现实世界?

最早有这种想法的人是一群画家。公元前 4 世纪,也就是苏格拉底的时代,画家 Zeuxis 和 Parrhasius 比试画作, Zeuxis 将葡萄画得栩栩如生,吸引群鸟来啄。当 Zeuxis 得意时,Parrhasius 邀请他前往画室观看自己的作品。Zeuxis 如约而至,当他想要掀开画室的帘布时,才发现帘布是画出来的。

Parrhasius 的绘画技巧,被称为错视画法。使用错视画法的画作,会让观众将二维平面错当成三维对象。因此,错视画法又被称为视觉上的幻觉艺术。

错视画法的核心基于线性透视,它的基本原理在于模仿人眼看待世界的两种方式:距离较近的物体看起来较大,距离较小的物体看起来较小;物体的大小随其偏离视线的程度而渐渐缩短;经过数千年的发展,画家们已经把透视的技术运用得炉火纯青。安德里亚.波佐在(Andrea Pozzo)于 1694 年在罗马圣伊格纳西奥(Sant’Ignazio)绘制的天顶画,是古典时代错视画法发展的巅峰。

然而,再形象的错视画,终究是二维平面的存在,我们仍然无法真正触及三维的世界。直到 1838 年,查尔斯.惠斯通(Charles Wheatstone)发明了有史以来第一款立体镜。立体镜的原理说来简单,由于人的双眼有一定的间距,同一物体,左右眼接收的其实是不同角度的平面图像。同一物体不同角度的平面图像,经由大脑中特定的翻译规则,最终转化为一幅立体的 3D 图像。这就是如今我们所熟知的「视差」。

「视差」是人类对认知系统新的破译,也是惠斯通在视觉领域的最大发现。在「视差」的基础上,他开发出了第一款立体镜。立体镜由一对与用户视线成 45° 角的镜子组成,每面镜子分别反射一张相同图片的侧面照片。当用户从正面观看立体镜时,左右两眼分别接收同一图片的不同角度,经由大脑合成,则可以看到关于该图片的立体画面。

「视差」的发现,以及立体镜的发明,让人类进入了 3D 的大门。自此,我们与造物主站在同一维度。我们所看到的,都可以被真实模拟出来。然而,真实的世界不止包括 3D 的空间,还存在第四维——时间。真实的世界,不存在静止的物体。在真实的世界里,我们不止可以看到物体的 3D 形象,还可以看到它的运动状态。什么时候,我们才能虚拟出真实流动的生活景象,看人来人往,花起花落?

海利格(Morton Leonard Heilig)是第一个做到这件事的人。他在 1957 年发明的 Sensorama,包括一块立体彩色显示屏、风扇、气味发射器、立体声系统和一张运动座椅。Sensorama 内置了多个观看场景,其中一个模拟在纽约街头骑摩托。观看者坐在座椅上,立体彩色显示屏播放海利格拍摄的纽约街道画面,风扇模拟摩托骑行时吹拂的风,立体声系统播放纽约街头的噪音,气味显示器会在特定的时刻被触发——例如接近一辆公交车时,会喷射汽车尾气的味道,而披萨小吃店也不在话下。

Sensorama 发明的初衷是为了教育。正如海利格在专利申请中所言:相比于阅读或者是听一场讲座,实际地经历能带来更高的学习效率。但受限于海利格本身的背景(电影从业者)和技术,Sensorama 并不能真正地实现与观看者的交互,而只是单一视角的动态展示。真正达成这一目标的是 1968 年的哈佛 HMD 项目,主导者是被誉为“计算机图形学之父” 的伊万.萨瑟兰(Ivan Sutherland)。

萨瑟兰的项目受到贝尔直升机公司的「夜间舵手」(Knighthelm) 项目启发:1963 年贝尔公司打造了一款头戴式显示器,该显示器与红外摄像机结合。摄像机安装在直升机底部,飞行员的头部转动,摄像机也随之转动,摄像机将拍摄的画面实时投影到显示器中,并呈现在飞行员的眼前。这样,即使在夜间,飞行员也能借助红外摄像机投射的画面在复杂地形中安全着陆。

萨瑟兰对虚拟世界的向往出于他对数学的热爱,他对 Knighthelm 项目的思考是:可以用计算机代替摄像机,这样就可以虚拟一个可视化的数学世界,我们可以从各种角度观察事物,复杂的形状也就变得通俗易懂。在他 27 岁的论文《The Ultimate Display》中,萨瑟兰写到:

我们生活在一个物理世界中,通过长期的熟悉,我们已经对这个物理世界的特性了如指掌。我们对这个物理世界有一种参与感,这种参与感使我们能够很好地预测它的特性。例如,我们可以预测物体会落在哪里,从其他角度看众所周知的形状是怎样的,以及在摩擦力作用下推动物体需要多大的力。

但我们对带电粒子的力、非均匀场中的力、非投影几何变换的影响以及高惯性、低摩擦运动缺乏相应的了解。与数字计算机相连的显示器让我们有机会熟悉物理世界中无法实现的概念。这是一个数学仙境的望远镜。

这个数学仙境的望远镜在 1968 年被推出,巨大的传感器被固定在吊顶上,通过带弹簧的管线与用户的头部相接。随着头部的转动,管线被拉长的长度和旋转的角度经由矩阵换算后,可以由轴编码器(shaft encoder)和万向节(universal joint)测算出倾斜角和方向,从而确认用户头部相对于屏幕的位置,再经由计算机实时渲染出当前 3D 物体应该呈现的样貌。而屏幕,或者说头戴显示器,由贝尔直升机公司提供,两个微型显像管,经由光学系统的放大,可以在用户面前呈现出一个 18 英寸的虚拟图像,呈现的视野则有 40°。由于整体的装置巨大,大家把它戏称为「达摩克里斯之剑」。(一个历史错误的插曲是,达摩克里斯之剑只是一套备用装置,真正起作用的是天花板上的超声波追踪器)

这一切的准备,最终使得一个 3D 的环乙烷分子结构成功地出现在用户面前。用户可以从任意地角度,或远或近地观察它。今天已经熟悉上百寸虚拟画面、宽视野、高清渲染的观众或许大失所望,声势浩大的哈佛项目竟只渲染了一个小小的 3D 分子。然而不要忘记,1968 年仍然是一个蛮荒的时代,不要说我们熟悉的各种 GPU,连万维网也还要过二、三十年才能出现。在那样一个筚路蓝缕的时代,这已然是一项壮举。

「达摩克里斯之剑」项目后,伊万.萨瑟兰退出了虚拟项目的研究,但这一趋势仍在继续,在学术界有 Frederick Phillips Brooks 这样的人在继续研究,思考如何降低延时、增加帧率。有项目管理背景的读者不会对这个名字感到陌生,Frederick 也是著名的《人月神话》的作者。

在军事领域,汤姆.福内斯(Tom Furness)正在主持「超级驾驶舱」项目,在福内斯的眼中,现有的飞行舱是一个低带宽设备,它限制了从人到机器的传输,典型的战斗机驾驶舱有 300 个开关和 75 个显示器,控制杆上有 11 个开关,油门上有 9 个开关。要在如此复杂的环境下实现紧急情况下的判断,对驾驶员的信息处理能力来说无疑是一种沉重考验。真正需要改善的是一种新的交互方式。在「超级驾驶舱」项目中,福内斯创造了一种虚拟世界生成器,生成器根据从数字总线中获得的飞行器矢量状态、位置、传感器图像和其他信息,从存储的地形数据库、数据链和信息描述库中提取选定的数据,合成飞行员周围的虚拟世界。「超级驾驶舱」可结合信息决策系统,形成看门狗机制,根据飞行员在不同任务阶段对信息需求的理解,筛选、过滤和控制流向飞行员的信息。该项目历经 20 余年,直到 1986 年才正式落地。此后汤姆从军事领域离开,到华盛顿大学成立了 HCI(人机交互中心),后来的虚拟视网膜显示屏和 ARToolKit 都出自该团队,他本身也被戏称为虚拟现实的祖父。

在工业界,1979 年埃里克.豪利特(Eric Howlett) 开发了 LEEP 光学系统,实现了宽视野的立体图像。当视野过小时,用户不会产生沉浸感,而只会觉得自己在“从一个立体窗口中看里面”,只有视场角达到 80° 以上,才会产生中身处其中的感觉。LEEP 的本质,是对空间进行投影变形,画面经由鱼眼镜头拍摄,又经由 LEEP 光学系统还原,尽可能矫正在扩大视野时产生的畸变。直到如今,LEEP 仍然是虚拟现实设备的光学基础。

LEEP 的出现,回应了萨瑟兰当初提到的虚拟现实的 7 个难题之一:实现视觉上的完全沉浸。视场角的扩大,使得用户不再产生「纱窗效应」,而是觉得自己完全地来到了另一个世界。

史蒂夫.曼(Steve Mann)则走向了另一条路,他更注重虚拟现实对于真实世界的增强。回到 1963 年,贝尔直升机将红外摄像头所拍摄的画面呈现在人眼面前,实际上是利用了红外增强了人眼的视力。1984 年曼的透视眼镜 EyeTap 也承袭着这条道路。通过在眼镜中内置长波红外感应器,用户能够探测细微的热信号,从而感知停车场或报告厅是否存在空位。当夜晚汽车车灯直射时,计算机将不同曝光度下拍摄的图像进行合成,最终呈现给用户一张清晰的司机脸庞照片。顺带一提,史蒂夫.曼也是 HDR 模式的发明者。

斯蒂夫的尝试,被誉为是 AR 的起点,也即所谓的 augment reality 增强现实,这是利用虚拟现实技术以达到增强人类感官目的的一种技术范式。这个词要到 1990 年,才会被波音公司的汤姆.考德尔(Tom Caudell)提出。而在相同的时间段里,VR ,也即 virtual reality ,这个名词也正式诞生了。1985 年,一位自学成才的电子游戏专家杰伦.拉尼尔(Jaron Lanier)在他位于帕洛阿尔托的家中开设了 VPL 研究公司,这是最早开发并将虚拟现实产品进行商业化的公司之一。前述提到的的埃里克.豪利特正是在 VPL 的启发下,才将最终的产品做成了虚拟头盔。

VPL 公司推出了一套完整的虚拟现实开发产品,在硬件层面:数据手套(DataGlove)采集手部运动,能够使用户与虚拟物体交互;数据套装(DataSuit)是一套全身动捕设备,能够采集人的基本运动;声场 (AudioSphere)模拟 3D 音频;Eyephone 则是头戴式显示器,以呈现虚拟画面;在软件层面,Isaac 是一套实时 3D 渲染引擎,Body Electric 是专为虚拟现实设计的编程语言。

巅峰的时候,VPL 推出的能量手套(数据手套的平价版)售出了 130w 只,每只 90 美元。杰伦.拉尼尔将 VR 视作第一种不会让人类精神变得狭隘的媒介,他在 1987 年创造了 VR 这个词。赛博谵妄文化的领军人物蒂莫西.利瑞(Timothy Leary),同时也是迷幻药的倡导者,将其视为一种对现实结构的反叛,在 VR 中我们可以重新创造现实。除了精神意义,利瑞也认为 VR 和迷幻药的结合能够对治疗精神疾病产生益处。

现在回过来头看,许多 VR 行业的前辈专家都把 1980 年代看作是虚拟现实的第一次浪潮,自海利格和萨瑟兰以来,虚拟现实真正实现商业化,并成为一种文化潮流。1992 年上映的《割草者》,描绘了当时的环境下大众对于虚拟现实技术的想象。而不要忘记,在第一波 VR 浪潮兴起的时候,连万维网还没有诞生。

第一次虚拟现实浪潮很快就结束了,受限于技术和硬件,虚拟现实设备的售价居高不下,还会导致严重的晕动症情况。VPL 公司则在 1990 年就申请了破产。此后,除了学术界仍在推进相关的研究,在商业世界里虚拟现实则渐渐无人问津。直到 2014 年,当时还叫 Facebook 的 Meta 公司以 20 亿美金收购了天才少年帕尔默.卢基(Palmer Luckey)和软件大神卡马克组建的公司 Oculus。

《连线》杂志评价 Oculus 推出的第一款产品 Oculus Rift 是“《割草者》以来,VR 首次进入大众视野”。陀螺仪、加速计和磁力计实时获取头部运动并变化图像,每秒 1000 次的数据读取使得运动状态被提前预估,延时问题得到极大缓解,佩戴者不再感到眩晕。通过提前将图像进行失真处理再经过放大透镜还原,Rift 用廉价透镜和卡马克编写的使图像预先失真的算法取代了原先10,000 美元的昂贵的光学装置。困扰 VR 多年的问题——成本和眩晕在 Oculus Rift 上看到了解决的希望。

更重要的事件是 Meta 的投入,以 20 亿美金收购了 Oculus,每年以不低于百亿的经费持续投入。在媒体的报道中,不乏对扎克伯格的嘲笑,认为元宇宙是一种另类的画饼。但对于虚拟现实行业来说,真金白银的投入比什么评价都重要。技术的进步,需要资本的注入,否则始终只能停在象牙塔中。正如虚拟现实技术先驱,美国国家工程院院士亨利.福克斯(Henry Fuchs)在接受 VR 之声的采访时所说:虚拟现实之所以没有得到较大的发展,是因为在近些年才得到大量的资金投入。DARPA (美国国防高级研究计划局,曾投资过萨瑟兰的达摩克里斯之剑项目)在此之前是最富有的资助机构,它们投入的经费大概是上千万美元。如果你有上千万美元,大概可以改进一款头戴式显示器。但如果你有 20 亿美元,你就有可能改变世界。在此之前,虚拟现实技术从未收到过这样的投资。

10 年过去了,Oculus 从 Rift 发展到了 Quest 3,虚拟现实从最初的环乙烷分子发展到一个完全虚拟的来自《阿斯加德之怒 2》的北欧神话世界,这一切只需要 499 美金。根据 Statista 的预测,2024 年 VR 设备的总销量将达到 3400 万,相比手机这仍然是一个小众市场,但苹果的入局会加速这一发展。

空间计算设备,这是苹果给这个古老的行业所带来的新名词,这个 2003 年由 Simon Greenwold 在其麻省理工硕士论文中提出的定义,即将在苹果各零售店和员工的传播里成为一种新的显学。而这一切都没有那么重要了,相比于杰伦.拉尼尔创造“虚拟现实”这个名词时公众对于 VR 的热捧,空间计算只被视为是苹果商业化的又一产品,也许它会像 iphone 一样成功,也许它只会和初代的 Homepod 一样。至于 Meta,每个人都不喜欢扎克伯格,更不喜欢关于元宇宙的宏大叙事。

也许这一次,泡沫仍然是存在的,不喜欢 VR,或者是 XR,或者是空间计算的人,仍然会对它嗤之以鼻。没有人会在头上顶着难看的头盔,贫瘠的内容生态,它不会成为一件商业成功的产品。但对于虚拟世界的爱好者而言,如果没有海利格在街头的尝试,没有萨瑟兰 60s 年代的研究,没有 VPL 80s 年代的商业化,没有帕尔默.卢基在车库里的改装,没有 Meta 和苹果的豪赌,VR 仍将是象牙塔里少数人的研究,或者仅限于军事培训。

现在的时代,已经比几十年前好太多了,由于资本的注入,供应链得到了供养,硬件得以完善。得益于神经网络和计算机图形学的发展,实时渲染、建模算法也有了长足的进步。《VR Chat》是不完美的,可那代表着我们离梦想的更近一步;《半衰期》、《阿德加斯之怒 2》也是不完美的,可是那代表人类创造虚拟世界的又一尝试。这无关游戏,而关乎我们所渴望拥有的世界。

1990 年,埃斯特.戴森(Esther Dyson)在为风险投资公司 EDVenture Holdings 工作时,每月需要撰写一期时事通讯。在这份硅谷人人传阅的通讯的 10 月刊中,她写道:“VR 令人兴奋之处恰恰在于它不同于现实–就像人工智能不同于智能一样。VR 让你超越现实,玩弄维度和感知。”

专栏作家

善宝橘,微信公众号:善宝橘,人人都是产品经理专栏作家,2019年年度作者。南大传播学硕士,崇尚终身学习的互联网斜杠青年,专注新媒体、游戏领域的运营策划。

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK